Metode Pembobotan Kata Berbasis Cluster Untuk Perangkingan Dokumen Berbahasa Arab
DOI:
https://doi.org/10.33633/tc.v20i2.4357Keywords:
Perangkingan Dokumen Arab, TF.IDF.ICF, Pembobotan Kata Berbasis ClusterAbstract
Perangkingan dokumen telah menjadi topik yang banyak dibahas pada sistem temu kembali informasi untuk memberikan urutan dokumen paling relevan berdasarkan kueri yang diberikan oleh pengguna. Namun, penelitian tentang perangkingan dokumen dalam bahasa Arab masih belum banyak dilakukan karena memiliki morfologi yang unik dan literatur dalam bahasa Arab yang masih sedikit. Selain itu, didalam proses perangkingan juga diperlukan perhitungan pembobotan kata yang optimal supaya dapat memberikan hasil yang sesuai. Pembobotan kata yang paling umum digunakan adalah term frequency-inverse document frequency (TF.IDF) yang hanya menghitung pembobotan setiap kata berdasarkan pengelompokan dokumen saja sehingga dapat menyebabkan relevansi antar dokumen menjadi rendah karena memiliki tingkat kemiripan antar dokumen yang berbeda. Oleh karena itu, diperlukan suatu pembobotan kata berdasarkan pengelompokan dokumen dalam suatu cluster untuk meningkatkan relevansi antar dokumen. Tujuan penelitian ini membuat metode perangkingan dokumen berbahasa Arab dengan menggunakan pembobotan berbasis cluster yang menggabungkan TF.IDF dan inverse cluster frequency (ICF) sehingga diperoleh TF.IDF.ICF. Evaluasi dilakukan menggunakan dokumen e-book berbahasa Arab yang telah dikelompokkan menjadi tiga cluster. Hasil penelitian membuktikan pembobotan TF.IDF.ICF mampu menemukan dokumen paling relevan terhadap kueri yang dimasukan oleh pengguna serta memperoleh nilai rata-rata precision dan F1-Measure yang lebih tinggi daripada hanya menggunakan pembobotan TF.IDF yaitu sebesar 68% dan 78%.References
M. A. Fauzi, A. Z. Arifin, and A. Yuniarti, 2017, Arabic Book Retrieval Using Class and Book Index Based Term Weighting, International Journal of Electrical and Computer Engineering (IJECE), No. 6, Vol. 7, pp. 3705–3710.
A. Aulia, D. Khairani, and N. Hakiem, 2017, Development of A Retrieval System for Al Hadith in Bahasa (Case Study: Hadith Bukhari), UIN Syarif Hidayatullah, Jakarta.
E. Elabd, E. Alshari, and H. Abdulkader, 2015, Semantic Boolean Arabic Information Retrieval, International Arab Journal of Information Technology, No. 3, Vol. 12, pp. 311-316.
R. Sholikah, D. Kartika, A. Z. Arifin, and D. Purwitasari, 2017, Term Weighting Based on Positive Impact Factor Query for Arabic Fiqh Document Ranking, Jurnal Ilmu Komputer dan Informasi, No. 1, Vol. 10, pp. 29-36.
K. F. H. Holle, A. Z. Arifin, and D. Purwitasari, 2015, Preference Based Term Weighting For Arabic Fiqh Document Ranking, Jurnal Ilmu Komputer dan Informasi, No. 1, Vol. 8, pp. 45-52.
M. Alhanjouri, 2017, Pre Processing Techniques for Arabic Documents Clustering, International Journal of Engineering and Management Research, No. 2, Vol. 7, pp. 70-79.
Maryamah, M. A. P. Subali, L. S. Qolby, A. Z. Arifin, and M. A. Fauzi, 2018, Metode Pembobotan Berbasis Topik dan Kelas untuk Berita Online Berbahasa Indonesia, Jurnal Linguistik Komputasional, No. 1, Vol. 1, pp. 11–16.
F. Ren and M. G. Sohrab, 2013, Class-Indexing-Based Term Weighting for Automatic Text Classification, Information Science, pp. 109-125.
A. T. Ni’mah and A. Z. Arifin, 2020, Perbandingan Metode Term Weighting terhadap Hasil Klasifikasi Teks pada Dataset Terjemahan Kitab Hadis, Rekayasa, No. 2, Vol.13, pp. 172-180.
N. P. Lestari, 2016, Uji Recall and Precision Sistem Temu Kembali Informasi OPAC Perpustakaan ITS Surabaya, Skripsi, Program Studi Sarjana Ilmu Informasi dan Perpustakaan, Univ. Airlangga, Surabaya.
N. Muslimah, Indriati, and R. . Wihandika, 2019, Klasifikasi Film Berdasarkan Sinopsis dengan Menggunakan Improved K-Nearest Neighbor (K-NN), Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer, No. 1, Vol. 3, pp. 196–204.
A. M. Siregar, 2017, Perbandingan Pembobotan Kata Dalam Sistem Temu Balik Informasi, Techno Xplore Jurnal Teknologi dan Ilmu Komputer, No. 2, Vol. 2, pp. 1-8.
F. Amin and J. A. Razaq, 2018, Pemeringkatan Hasil Pencarian Dokumen Teks Pada Sistem Temu Kembali Informasi Berbahasa Jawa Menggunakan Metode Dice Similarity, INFOKAM, No. 2, pp. 120–129.
Downloads
Published
Issue
Section
License
Copyright (c) 2021 Amelia Devi Putri Ariyanto
This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.
Pernyataan Lisensi
Artikel yang diterbitkan dalam jurnal Techno.Com dilisensikan di bawah Lisensi Creative Commons Atribusi-NonKomersial 4.0 Internasional (CC BY-NC 4.0).
Anda diperbolehkan untuk menyalin, mendistribusikan, menampilkan, dan melakukan karya dari artikel ini serta membuat karya turunan selama Anda memberikan kredit yang sesuai kepada penulis asli dan tidak menggunakan karya ini untuk tujuan komersial. Untuk melihat salinan lisensi ini, kunjungi [Creative Commons Attribution-NonCommercial 4.0 International](https://creativecommons.org/licenses/by-nc/4.0/).
---
Contoh pengkreditan:
- Penulis: [Nama Penulis]
- Judul Artikel: [Judul Artikel]
- Jurnal: Techno.Com, Vol. [Nomor Volume], No. [Nomor Edisi], Tahun [Tahun Penerbitan]
Jika Anda ingin menggunakan karya ini untuk tujuan komersial, Anda harus mendapatkan izin terlebih dahulu dari penulis atau penerbit.
---