KOMBINASI TEKNIK CHI SQUARE DAN SINGULAR VALUE DECOMPOSITION UNTUK REDUKSI FITUR PADA PENGELOMPOKAN DOKUMEN

Authors

  • Catur Supriyanto Fakulti Teknologi Maklumat dan Komunikasi, Universiti Teknikal Malaysia, Melaka
  • Affandy Affandy Affandy Fakulti Teknologi Maklumat dan Komunikasi, Universiti Teknikal Malaysia, Melaka

Abstract

Clustering dokumen adalah proses pengelompokan dokumen yang memiliki kesamaan topik. Metode Vector Space Model (VSM) merepresentasikan sekumpulan dokumen dalam bentuk matrik term-document, dimana setiap kolomnya mewakili dokumen dan setiap barisnya mewakili term (kata) yang terkandung dalam dokumen tersebut. Masalah yang terjadi dalam VSM adalah besarnya dimensi dan banyaknya nilai nolyang dihasilkan pada matrik term-document. Hal ini dapat mengurangi performa dari proses pengelompokan dokumen. Penelitian sebelumnya menunjukkan bahwa Latent Semantic Indexing (LSI) dengan menggunakan Singular Value Decomposition (SVD) mampu mereduksi besarnya dimensi matrik, namun SVD membutuhkan waktu proses komputasi yang relatif lama. Kajian ini mengusulkan penggunaanseleksi fitur untuk mengatasi kelemahan tersebut, dimana seleksi fitur akan menyeleksi term-term yang memiliki kontribusi yang besar untuk penentuan topik sebuah dokumen. Tahap preprocessing yang diusulkan meliputi tokenization, stopword removal dan stemming. Penelitian akan memfokuskanpemanfaatan chi-square sebagai seleksi fitur dan SVD untuk diterapkan dalam k-means clustering. Hasil penelitian menunjukan bahwa penggunaan chi-square mampu meningkatkan performa SVD dalam proses pengelompokan 150 dokumen. Sebanyak 1991 term berhasil diperoleh setelah tahap preprocessing dilakukan. Setelah melalui tahap seleksi fitur, rank-10 SVD dengan menggunakan 10 term dapat meningkatkan nilai F-measure dari 0.92 menjadi 0.97, serta dapat menurunkan waktu komputasi dari SVD hingga 48 persen.Kata kunci : Clustering, Dokumen, VSM, SVD, Chi-square

Downloads

Published

2011-04-16