Masukkan kalimat (dokumen) dan query untuk melihat proses perhitungan langkah demi langkah.
Langkah 1: Preprocessing & Vocabulary
Memecah kalimat menjadi kata (token), mengubah ke huruf kecil, dan menghapus tanda baca.
Langkah 2: Term Frequency (TF)
Rumus: (Jumlah kemunculan kata t di dokumen d) / (Total kata di dokumen d)
Langkah 3: Inverse Document Frequency (IDF)
Rumus: log10(Total Dokumen / Jumlah Dokumen yang mengandung kata t)
Langkah 4: TF-IDF Matrix
Rumus: TF * IDF
Langkah 5: Cosine Similarity (Hasil Akhir)
Rumus: (A . B) / (||A|| * ||B||)
Skor mendekati 1 berarti sangat mirip, mendekati 0 berarti tidak mirip.