Analisis Silhouette Coefficient pada 6 Perhitungan Jarak K-Means Clustering

Authors

  • Rahmatina Hidayati Universitas Merdeka Malang
  • Anis Zubair Universitas Merdeka Malang
  • Aditya Hidayat Pratama Universitas Merdeka Malang
  • Luthfi Indana Universitas Merdeka Malang

DOI:

https://doi.org/10.33633/tc.v20i2.4556

Keywords:

K-Means, Clustering, Silhouette Coefficient

Abstract

Clustering merupakan proses pengelompokan sekumpulan data ke dalam klaster yang memiliki kemiripan. Kemiripan dalam satau klaster ditentukan dengan perhitungan jarak. Untuk melihat perfoma beberapa perhitungan jarak, dalam penelitian ini penulis menguji pada 6 data yang memiliki atribut berbeda, yakni 2, 3, 4, dan 6 atribut. Dari hasil uji perbandingan rumus jarak pada K-Means clustering menggunakan Silhouette coefficient dapat disimpulkan bahwa: 1) Chebyshev distance memiliki performa yang stabil baik untuk data dengan sedikit atribut maupun banyak. 2) Average distance memiliki hasil Silhouette coefficient paling tinggi dibandingkan dengan pengukuran jarak lain untuk data yang memiliki outliers seperti data 3. 3) Mean Character Difference mendapatkan hasil yang baik hanya untuk data dengan sedikit atribut. 4) Euclidean distance, Manhattan distance, dan Minkowski distance menghasilkan nilai baik untuk data yang memiliki sedikt atribut, sedangkan untuk data yang banyak atribut mendapatkan nilai cukup yang mendekati 0,5.

References

Han, J., Kamber, M., 2006, Data Mining: Concepts and Techniques 2nd Edition, Elsevier

Nishom, M., 2019, Perbandingan Akurasi Euclidean Distance, Minkowski Distance, dan Manhattan Distance pada Algoritma K-Means Clustering berbasis Chi-Square, Jurnal Informatika: Jurnal Pengembangan IT (JPIT), Vol.04, No.01, hal 20-24.

Anggara, M., Sujiani, H. dan Nasution, H., 2016, Pemilihan Distance Measure Pada K-Means Clustering Untuk Pengelompokkan Member Di Alvaro Fitness, Jurnal Sistem dan Teknologi Informasi (JUSTIN), Vol. 1, No. 1, hal 1-6.

Statistik Indonesia, 2020, BPS-Statistics Indonesi, ISSN: 0126-2912

Statistik Pendidikan Provinsi Jawa Timur, 2019, BPS Provinsi Jawa Timur.

http://covid19.go.id diakses Februari 2021

Gan, G., Ma, C., and Wu, J., 2007, Data Clustering: Theory, Algorithms, and Applications, ASA-SIAM Series on Statistics and Applied Probability. Society for Industrial and Applied Mathematics, Alexandria, VA.

Struyf, A., Hubert, M., and Rousseeuw, P. J., 1997, Clustering in an Object-Oriented Environment, Journal of Statictical Software, Vol 1, Issue 4, 1-30.

Downloads

Published

2021-05-19

Issue

Section

Articles