📚 Simulator TF-IDF & Cosine Similarity

Masukkan kalimat (dokumen) dan query untuk melihat proses perhitungan langkah demi langkah.

Dokumen (Satu kalimat per baris):

Query (Kata kunci pencarian):

Langkah 1: Preprocessing & Vocabulary

Memecah kalimat menjadi kata (token), mengubah ke huruf kecil, dan menghapus tanda baca.

Langkah 2: Term Frequency (TF)

Rumus: (Jumlah kemunculan kata t di dokumen d) / (Total kata di dokumen d)

Langkah 3: Inverse Document Frequency (IDF)

Rumus: log10(Total Dokumen / Jumlah Dokumen yang mengandung kata t)

Langkah 4: TF-IDF Matrix

Rumus: TF * IDF

Langkah 5: Cosine Similarity (Hasil Akhir)

Rumus: (A . B) / (||A|| * ||B||)

Skor mendekati 1 berarti sangat mirip, mendekati 0 berarti tidak mirip.