Penggunaan Feature Space SMOTE Untuk Mengurangi Overfitting Akibat Imbalance Dataset
DOI:
https://doi.org/10.62411/tc.v23i2.10215Keywords:
CNN, imbalance, smote, augmentation, overfittingAbstract
Pembuatan model klasifikasi memerlukan beberapa hal yang penting untuk diperhatikan demi mendapatkan model yang memiliki performa terbaik. Indikator suatu model disebut baik dapat dilihat salah satunya dari tingginya nilai akurasi dan f1-score yang dihasilkan dari model tersebut. Rendahnya nilai loss juga merupakan salah satu indikator model tersebut memiliki performa yang baik. Untuk dapat membuat model yang baik, diperlukan beberapa syarat seperti arsitektur yang tepat dan data yang berkualitas. Pemilihan model yang terlalu sederhana akan mengakibatkan model memiliki performa yang buruk, begitupun jika model terlalu kompleks tidak akan menghasilkan performa yang baik pula, oleh karena itu model yang dipilih haruslah model yang tepat dan sesuai dengan jenis data yang digunakan. Data yang berkualitas juga merupakan faktor penting agar model memiliki performa maksimal. Data dapat dikatakan berkualitas jika memenuhi syarat seperti jumlahnya cukup, distribusi datanya seimbang tiap kelas, memiliki keanekaragaman dan memiliki kebersihan yang baik. Pada penelitian ini, dilakukan pembuatan model klasifikasi CT Kidney Stone dengan dataset yang imbalance. Dataset diperoleh dari sumber publik yaitu Kaggle. Pembuatan model menggunakan algoritma CNN karena CNN merupakan salah satu algoritma yang terbaik dalam membuat klasifikasi gambar. Pembuatan model menggunakan 3 cara untuk melihat model yang memiliki performa paling baik. Model pertama dibuat dengan data train yang imbalance. Model kedua dibuat dengan melakukan augmentasi data untuk menambah keragaman data. Model ketiga dibuat dengan SMOTE oversampling untuk menyeimbangkan distribusi data. Setelah itu ketiga model tersebut akan diuji dengan menggunakan data privat untuk melihat performa pengujian dan melihat tingkat overfitting yang terjadi. Penelitian ini menghasilkan bahwa model yang memiliki performa terbaik adalah model ketiga yang menggunakan SMOTE.References
C. Janiesch, P. Zschech, and K. Heinrich, “Machine learning and deep learning,” Electron. Mark., vol. 31, no. 3, pp. 685–695, 2021, doi: 10.1007/s12525-021-00475-2.
J. Naranjo-Torres, M. Mora, R. Hernández-García, R. J. Barrientos, C. Fredes, and A. Valenzuela, “A review of convolutional neural network applied to fruit image processing,” Appl. Sci., vol. 10, no. 10, 2020, doi: 10.3390/app10103443.
E. MUGABO and D. W. M. (PhD), “Develop an Extended Model of CNN Algorithm in Deep Learning for Bone Tumor Detection and its Application,” Int. J. Innov. Sci. Res. Technol., vol. 8, no. 10, 2023, doi: https://doi.org/10.5281/zenodo.10040584.
O. Joseph and W. O. Apena, “Development of Segmentation and Classification Algorithms for Computed Tomography Images of Human Kidney Stone,” J. Electron. Res. Appl., vol. 5, no. 5, pp. 1–10, 2021, doi: 10.26689/jera.v5i5.1196.
A. Indrawati, “Penerapan Teknik Kombinasi Oversampling Dan Undersampling Hybrid Oversampling and Undersampling Techniques To Handling Imbalanced Dataset,” JIKO(Jurnal Inform. dan Komputer), vol. 4, no. 1, pp. 38–43, 2021, doi: 10.33387/jiko.
X. Ying, “An Overview of Overfitting and its Solutions,” J. Phys. Conf. Ser., vol. 1168, no. 2, 2019, doi: 10.1088/1742-6596/1168/2/022022.
Y. Yan et al., “Oversampling for imbalanced data via optimal transport,” 33rd AAAI Conf. Artif. Intell. AAAI 2019, 31st Innov. Appl. Artif. Intell. Conf. IAAI 2019 9th AAAI Symp. Educ. Adv. Artif. Intell. EAAI 2019, vol. 33, no. 1, pp. 5605–5612, 2019, doi: 10.1609/aaai.v33i01.33015605.
T. Wongvorachan, S. He, and O. Bulut, “A Comparison of Undersampling, Oversampling, and SMOTE Methods for Dealing with Imbalanced Classification in Educational Data Mining,” Inf., vol. 14, no. 1, 2023, doi: 10.3390/info14010054.
S. Bej, N. Davtyan, M. Wolfien, M. Nassar, and O. Wolkenhauer, “LoRAS: an oversampling approach for imbalanced datasets,” Mach. Learn., vol. 110, no. 2, pp. 279–301, 2021, doi: 10.1007/s10994-020-05913-4.
C. Supriyanto, A. Salam, J. Zeniarja, and A. Wijaya, “Two-Stages Input Space Image Augmentation and Interpretable Technique for Accurate and Explainable Skin Cancer Diagnosis,” Computation, vol. 11, no. 12, p. 246, Dec. 2023, doi: 10.3390/computation11120246.
A. N. Kasanah, M. Muladi, and U. Pujianto, “Penerapan Teknik SMOTE untuk Mengatasi Imbalance Class dalam Klasifikasi Objektivitas Berita Online Menggunakan Algoritma KNN,” J. RESTI (Rekayasa Sist. dan Teknol. Informasi), vol. 3, no. 2, pp. 196–201, 2019, doi: 10.29207/resti.v3i2.945.
G. Gumelar, Q. Ain, R. Marsuciati, S. Agustanti Bambang, A. Sunyoto, and M. Syukri Mustafa, “Kombinasi Algoritma Sampling dengan Algoritma Klasifikasi untuk Meningkatkan Performa Klasifikasi Dataset Imbalance,” SISFOTEK Sist. Inf. dan Teknol., vol. 5, no. 1, pp. 250–255, 2021.
A. Nugroho and E. Rilvani, “Penerapan Metode Oversampling SMOTE Pada Algoritma Random Forest Untuk Prediksi Kebangkrutan Perusahaan,” Techno.Com, vol. 22, no. 1, pp. 207–214, 2023, doi: 10.33633/tc.v22i1.7527.
J. Sanjaya and M. Ayub, “Augmentasi Data Pengenalan Citra Mobil Menggunakan Pendekatan Random Crop, Rotate, dan Mixup,” J. Tek. Inform. dan Sist. Inf., vol. 6, no. 2, pp. 311–323, 2020, doi: 10.28932/jutisi.v6i2.2688.
K. Maharana, S. Mondal, and B. Nemade, “A review: Data pre-processing and data augmentation techniques,” Glob. Transitions Proc., vol. 3, no. 1, pp. 91–99, 2022, doi: 10.1016/j.gltp.2022.04.020.
D. Alzu’Bi et al., “Kidney Tumor Detection and Classification Based on Deep Learning Approaches: A New Dataset in CT Scans,” J. Healthc. Eng., vol. 2022, 2022, doi: 10.1155/2022/3861161.
A. Mumuni and F. Mumuni, “Data augmentation: A comprehensive survey of modern approaches,” Array, vol. 16, no. November, p. 100258, 2022, doi: 10.1016/j.array.2022.100258.
R. D. Ramadhani, A. N. A. Thohari, C. Cartiko, A. Junaidi, and T. G. Laksana, “Optimasi Akurasi Metode Convolutional Neural Network untuk Klasifikasi Kualitas Buah Apel Hijau,” J. Mnemon., vol. 6, no. 2, pp. 149–156, 2023, doi: https://doi.org/10.36040/mnemonic.v6i2.6730.
D. Bhatt et al., “Cnn variants for computer vision: History, architecture, application, challenges and future scope,” Electron., vol. 10, no. 20, pp. 1–28, 2021, doi: 10.3390/electronics10202470.
M. Resa Arif Yudianto, P. Sukmasetya, R. Abul Hasani, and D. Sasongko, “Pengaruh Data Preprocessing terhadap Imbalanced Dataset pada Klasifikasi Citra Sampah menggunakan Algoritma Convolutional Neural Network,” Build. Informatics, Technol. Sci., vol. 4, no. 3, pp. 1367–1375, 2022, doi: 10.47065/bits.v4i3.2575.
Downloads
Published
Issue
Section
License
Pernyataan Lisensi
Artikel yang diterbitkan dalam jurnal Techno.Com dilisensikan di bawah Lisensi Creative Commons Atribusi-NonKomersial 4.0 Internasional (CC BY-NC 4.0).
Anda diperbolehkan untuk menyalin, mendistribusikan, menampilkan, dan melakukan karya dari artikel ini serta membuat karya turunan selama Anda memberikan kredit yang sesuai kepada penulis asli dan tidak menggunakan karya ini untuk tujuan komersial. Untuk melihat salinan lisensi ini, kunjungi [Creative Commons Attribution-NonCommercial 4.0 International](https://creativecommons.org/licenses/by-nc/4.0/).
---
Contoh pengkreditan:
- Penulis: [Nama Penulis]
- Judul Artikel: [Judul Artikel]
- Jurnal: Techno.Com, Vol. [Nomor Volume], No. [Nomor Edisi], Tahun [Tahun Penerbitan]
Jika Anda ingin menggunakan karya ini untuk tujuan komersial, Anda harus mendapatkan izin terlebih dahulu dari penulis atau penerbit.
---