Penggunaan Feature Space SMOTE Untuk Mengurangi Overfitting Akibat Imbalance Dataset

Authors

  • Wira Adi Kurniawan Universitas Dian Nuswantoro
  • Abu Salam Universitas Dian Nuswantoro

DOI:

https://doi.org/10.62411/tc.v23i2.10215

Keywords:

CNN, imbalance, smote, augmentation, overfitting

Abstract

Pembuatan model klasifikasi memerlukan beberapa hal yang penting untuk diperhatikan demi mendapatkan model yang memiliki performa terbaik. Indikator suatu model disebut baik dapat dilihat salah satunya dari tingginya nilai akurasi dan f1-score yang dihasilkan dari model tersebut. Rendahnya nilai loss juga merupakan salah satu indikator model tersebut memiliki performa yang baik. Untuk dapat membuat model yang baik, diperlukan beberapa syarat seperti arsitektur yang tepat dan data yang berkualitas. Pemilihan model yang terlalu sederhana akan mengakibatkan model memiliki performa yang buruk, begitupun jika model terlalu kompleks tidak akan menghasilkan performa yang baik pula, oleh karena itu model yang dipilih haruslah model yang tepat  dan sesuai dengan jenis data yang digunakan. Data yang berkualitas juga merupakan faktor penting agar model memiliki performa maksimal. Data dapat dikatakan berkualitas jika memenuhi syarat seperti jumlahnya cukup, distribusi datanya seimbang tiap kelas, memiliki keanekaragaman dan memiliki kebersihan yang baik.  Pada penelitian ini, dilakukan pembuatan model klasifikasi CT Kidney Stone dengan dataset yang imbalance. Dataset diperoleh dari sumber publik yaitu Kaggle. Pembuatan model menggunakan algoritma CNN karena CNN merupakan salah satu algoritma yang terbaik dalam membuat klasifikasi gambar. Pembuatan model menggunakan 3 cara untuk melihat model yang memiliki performa paling baik. Model pertama dibuat dengan data train yang imbalance. Model kedua dibuat dengan melakukan augmentasi data untuk menambah keragaman data. Model ketiga dibuat dengan SMOTE oversampling untuk menyeimbangkan distribusi data. Setelah itu ketiga model tersebut akan diuji dengan menggunakan data privat untuk melihat performa pengujian dan melihat tingkat overfitting yang terjadi. Penelitian ini menghasilkan bahwa model yang memiliki performa terbaik adalah model ketiga yang menggunakan SMOTE.

References

C. Janiesch, P. Zschech, and K. Heinrich, “Machine learning and deep learning,” Electron. Mark., vol. 31, no. 3, pp. 685–695, 2021, doi: 10.1007/s12525-021-00475-2.

J. Naranjo-Torres, M. Mora, R. Hernández-García, R. J. Barrientos, C. Fredes, and A. Valenzuela, “A review of convolutional neural network applied to fruit image processing,” Appl. Sci., vol. 10, no. 10, 2020, doi: 10.3390/app10103443.

E. MUGABO and D. W. M. (PhD), “Develop an Extended Model of CNN Algorithm in Deep Learning for Bone Tumor Detection and its Application,” Int. J. Innov. Sci. Res. Technol., vol. 8, no. 10, 2023, doi: https://doi.org/10.5281/zenodo.10040584.

O. Joseph and W. O. Apena, “Development of Segmentation and Classification Algorithms for Computed Tomography Images of Human Kidney Stone,” J. Electron. Res. Appl., vol. 5, no. 5, pp. 1–10, 2021, doi: 10.26689/jera.v5i5.1196.

A. Indrawati, “Penerapan Teknik Kombinasi Oversampling Dan Undersampling Hybrid Oversampling and Undersampling Techniques To Handling Imbalanced Dataset,” JIKO(Jurnal Inform. dan Komputer), vol. 4, no. 1, pp. 38–43, 2021, doi: 10.33387/jiko.

X. Ying, “An Overview of Overfitting and its Solutions,” J. Phys. Conf. Ser., vol. 1168, no. 2, 2019, doi: 10.1088/1742-6596/1168/2/022022.

Y. Yan et al., “Oversampling for imbalanced data via optimal transport,” 33rd AAAI Conf. Artif. Intell. AAAI 2019, 31st Innov. Appl. Artif. Intell. Conf. IAAI 2019 9th AAAI Symp. Educ. Adv. Artif. Intell. EAAI 2019, vol. 33, no. 1, pp. 5605–5612, 2019, doi: 10.1609/aaai.v33i01.33015605.

T. Wongvorachan, S. He, and O. Bulut, “A Comparison of Undersampling, Oversampling, and SMOTE Methods for Dealing with Imbalanced Classification in Educational Data Mining,” Inf., vol. 14, no. 1, 2023, doi: 10.3390/info14010054.

S. Bej, N. Davtyan, M. Wolfien, M. Nassar, and O. Wolkenhauer, “LoRAS: an oversampling approach for imbalanced datasets,” Mach. Learn., vol. 110, no. 2, pp. 279–301, 2021, doi: 10.1007/s10994-020-05913-4.

C. Supriyanto, A. Salam, J. Zeniarja, and A. Wijaya, “Two-Stages Input Space Image Augmentation and Interpretable Technique for Accurate and Explainable Skin Cancer Diagnosis,” Computation, vol. 11, no. 12, p. 246, Dec. 2023, doi: 10.3390/computation11120246.

A. N. Kasanah, M. Muladi, and U. Pujianto, “Penerapan Teknik SMOTE untuk Mengatasi Imbalance Class dalam Klasifikasi Objektivitas Berita Online Menggunakan Algoritma KNN,” J. RESTI (Rekayasa Sist. dan Teknol. Informasi), vol. 3, no. 2, pp. 196–201, 2019, doi: 10.29207/resti.v3i2.945.

G. Gumelar, Q. Ain, R. Marsuciati, S. Agustanti Bambang, A. Sunyoto, and M. Syukri Mustafa, “Kombinasi Algoritma Sampling dengan Algoritma Klasifikasi untuk Meningkatkan Performa Klasifikasi Dataset Imbalance,” SISFOTEK Sist. Inf. dan Teknol., vol. 5, no. 1, pp. 250–255, 2021.

A. Nugroho and E. Rilvani, “Penerapan Metode Oversampling SMOTE Pada Algoritma Random Forest Untuk Prediksi Kebangkrutan Perusahaan,” Techno.Com, vol. 22, no. 1, pp. 207–214, 2023, doi: 10.33633/tc.v22i1.7527.

J. Sanjaya and M. Ayub, “Augmentasi Data Pengenalan Citra Mobil Menggunakan Pendekatan Random Crop, Rotate, dan Mixup,” J. Tek. Inform. dan Sist. Inf., vol. 6, no. 2, pp. 311–323, 2020, doi: 10.28932/jutisi.v6i2.2688.

K. Maharana, S. Mondal, and B. Nemade, “A review: Data pre-processing and data augmentation techniques,” Glob. Transitions Proc., vol. 3, no. 1, pp. 91–99, 2022, doi: 10.1016/j.gltp.2022.04.020.

D. Alzu’Bi et al., “Kidney Tumor Detection and Classification Based on Deep Learning Approaches: A New Dataset in CT Scans,” J. Healthc. Eng., vol. 2022, 2022, doi: 10.1155/2022/3861161.

A. Mumuni and F. Mumuni, “Data augmentation: A comprehensive survey of modern approaches,” Array, vol. 16, no. November, p. 100258, 2022, doi: 10.1016/j.array.2022.100258.

R. D. Ramadhani, A. N. A. Thohari, C. Cartiko, A. Junaidi, and T. G. Laksana, “Optimasi Akurasi Metode Convolutional Neural Network untuk Klasifikasi Kualitas Buah Apel Hijau,” J. Mnemon., vol. 6, no. 2, pp. 149–156, 2023, doi: https://doi.org/10.36040/mnemonic.v6i2.6730.

D. Bhatt et al., “Cnn variants for computer vision: History, architecture, application, challenges and future scope,” Electron., vol. 10, no. 20, pp. 1–28, 2021, doi: 10.3390/electronics10202470.

M. Resa Arif Yudianto, P. Sukmasetya, R. Abul Hasani, and D. Sasongko, “Pengaruh Data Preprocessing terhadap Imbalanced Dataset pada Klasifikasi Citra Sampah menggunakan Algoritma Convolutional Neural Network,” Build. Informatics, Technol. Sci., vol. 4, no. 3, pp. 1367–1375, 2022, doi: 10.47065/bits.v4i3.2575.

Downloads

Published

2024-05-18

Issue

Section

Articles