Analisis Performa Deep Embedded Clustering untuk Pendeteksian Topik

Authors

  • Danu Julian Cahyadi Department of Mathematics, Universitas Indonesia
  • Hendri Murfi Department of Mathematics, Universitas Indonesia
  • Yudi Satria Department of Mathematics, Universitas Indonesia
  • Sarini Abdullah Department of Mathematics, Universitas Indonesia
  • Yekti Widyaningsih Department of Mathematics, Universitas Indonesia

DOI:

https://doi.org/10.62411/tc.v24i1.11841

Abstract

Pendeteksian topik adalah solusi untuk mengungkap struktur laten dalam sebuah dokumen. Kerangka umum pendeteksian topik berbasis clustering terdiri dari dua langkah: pembelajaran representasi dan pendeteksian topik melalui clustering. Dalam penelitian ini, Bidirectional Encoder Representations from Transformers (BERT) digunakan untuk pembelajaran representasi karena BERT mampu menangkap konteks setiap kata berdasarkan kata-kata di sekitarnya. Representasi teks yang diperoleh dari BERT digunakan untuk pendeteksian topik dengan clustering. Deep Embedded Clustering (DEC) dan Improved DEC (IDEC) adalah model clustering berbasis deep learning yang digunakan dalam penelitian ini untuk pendeteksian topik. DEC dan IDEC mampu mengubah data ke dalam ruang dimensi yang lebih rendah serta mengoptimalkan cluster secara simultan. Output dari teknik clustering berupa kata-kata kunci yang menggambarkan setiap topik cluster. Setelah mendapat kata kunci yang mewakili topik, evaluasi model dilakukan dengan melakukan perbandingan nilai topic coherence menggunakan Topic Coherence - Word2Vec (TC-W2V) sebagai analisis kuantitatif. Penelitian ini merupakan perluasan dari penerapan DEC dan IDEC pada pendeteksian topik dengan menambahkan analisis visualisasi dan kata kunci. Simulasi menunjukkan bahwa DEC dan IDEC mengungguli Uniform Manifold  Approximation and Projection (UMAP)-based k-means (UKM) dan Eigenspace-Based Fuzzy C-Means (EFCM) dari segi nilai TC-W2V, hasil visualisasi, dan kata kunci.   Kata kunci: analisis teks, deep clustering, pemrosesan teks

Downloads

Published

2025-02-26

Most read articles by the same author(s)

Obs.: This plugin requires at least one statistics/report plugin to be enabled. If your statistics plugins provide more than one metric then please also select a main metric on the admin's site settings page and/or on the journal manager's settings pages.