Penggunaan Feature Space SMOTE Untuk Mengurangi Overfitting Akibat Imbalance Dataset
DOI:
https://doi.org/10.62411/tc.v23i2.10215Keywords:
CNN, imbalance, smote, augmentation, overfittingAbstract
Pembuatan model klasifikasi memerlukan beberapa hal yang penting untuk diperhatikan demi mendapatkan model yang memiliki performa terbaik. Indikator suatu model disebut baik dapat dilihat salah satunya dari tingginya nilai akurasi dan f1-score yang dihasilkan dari model tersebut. Rendahnya nilai loss juga merupakan salah satu indikator model tersebut memiliki performa yang baik. Untuk dapat membuat model yang baik, diperlukan beberapa syarat seperti arsitektur yang tepat dan data yang berkualitas. Pemilihan model yang terlalu sederhana akan mengakibatkan model memiliki performa yang buruk, begitupun jika model terlalu kompleks tidak akan menghasilkan performa yang baik pula, oleh karena itu model yang dipilih haruslah model yang tepat dan sesuai dengan jenis data yang digunakan. Data yang berkualitas juga merupakan faktor penting agar model memiliki performa maksimal. Data dapat dikatakan berkualitas jika memenuhi syarat seperti jumlahnya cukup, distribusi datanya seimbang tiap kelas, memiliki keanekaragaman dan memiliki kebersihan yang baik. Pada penelitian ini, dilakukan pembuatan model klasifikasi CT Kidney Stone dengan dataset yang imbalance. Dataset diperoleh dari sumber publik yaitu Kaggle. Pembuatan model menggunakan algoritma CNN karena CNN merupakan salah satu algoritma yang terbaik dalam membuat klasifikasi gambar. Pembuatan model menggunakan 3 cara untuk melihat model yang memiliki performa paling baik. Model pertama dibuat dengan data train yang imbalance. Model kedua dibuat dengan melakukan augmentasi data untuk menambah keragaman data. Model ketiga dibuat dengan SMOTE oversampling untuk menyeimbangkan distribusi data. Setelah itu ketiga model tersebut akan diuji dengan menggunakan data privat untuk melihat performa pengujian dan melihat tingkat overfitting yang terjadi. Penelitian ini menghasilkan bahwa model yang memiliki performa terbaik adalah model ketiga yang menggunakan SMOTE.References
C. Janiesch, P. Zschech, and K. Heinrich, “Machine learning and deep learning,” Electron. Mark., vol. 31, no. 3, pp. 685–695, 2021, doi: 10.1007/s12525-021-00475-2.
J. Naranjo-Torres, M. Mora, R. Hernández-García, R. J. Barrientos, C. Fredes, and A. Valenzuela, “A review of convolutional neural network applied to fruit image processing,” Appl. Sci., vol. 10, no. 10, 2020, doi: 10.3390/app10103443.
E. MUGABO and D. W. M. (PhD), “Develop an Extended Model of CNN Algorithm in Deep Learning for Bone Tumor Detection and its Application,” Int. J. Innov. Sci. Res. Technol., vol. 8, no. 10, 2023, doi: https://doi.org/10.5281/zenodo.10040584.
O. Joseph and W. O. Apena, “Development of Segmentation and Classification Algorithms for Computed Tomography Images of Human Kidney Stone,” J. Electron. Res. Appl., vol. 5, no. 5, pp. 1–10, 2021, doi: 10.26689/jera.v5i5.1196.
A. Indrawati, “Penerapan Teknik Kombinasi Oversampling Dan Undersampling Hybrid Oversampling and Undersampling Techniques To Handling Imbalanced Dataset,” JIKO(Jurnal Inform. dan Komputer), vol. 4, no. 1, pp. 38–43, 2021, doi: 10.33387/jiko.
X. Ying, “An Overview of Overfitting and its Solutions,” J. Phys. Conf. Ser., vol. 1168, no. 2, 2019, doi: 10.1088/1742-6596/1168/2/022022.
Y. Yan et al., “Oversampling for imbalanced data via optimal transport,” 33rd AAAI Conf. Artif. Intell. AAAI 2019, 31st Innov. Appl. Artif. Intell. Conf. IAAI 2019 9th AAAI Symp. Educ. Adv. Artif. Intell. EAAI 2019, vol. 33, no. 1, pp. 5605–5612, 2019, doi: 10.1609/aaai.v33i01.33015605.
T. Wongvorachan, S. He, and O. Bulut, “A Comparison of Undersampling, Oversampling, and SMOTE Methods for Dealing with Imbalanced Classification in Educational Data Mining,” Inf., vol. 14, no. 1, 2023, doi: 10.3390/info14010054.
S. Bej, N. Davtyan, M. Wolfien, M. Nassar, and O. Wolkenhauer, “LoRAS: an oversampling approach for imbalanced datasets,” Mach. Learn., vol. 110, no. 2, pp. 279–301, 2021, doi: 10.1007/s10994-020-05913-4.
C. Supriyanto, A. Salam, J. Zeniarja, and A. Wijaya, “Two-Stages Input Space Image Augmentation and Interpretable Technique for Accurate and Explainable Skin Cancer Diagnosis,” Computation, vol. 11, no. 12, p. 246, Dec. 2023, doi: 10.3390/computation11120246.
A. N. Kasanah, M. Muladi, and U. Pujianto, “Penerapan Teknik SMOTE untuk Mengatasi Imbalance Class dalam Klasifikasi Objektivitas Berita Online Menggunakan Algoritma KNN,” J. RESTI (Rekayasa Sist. dan Teknol. Informasi), vol. 3, no. 2, pp. 196–201, 2019, doi: 10.29207/resti.v3i2.945.
G. Gumelar, Q. Ain, R. Marsuciati, S. Agustanti Bambang, A. Sunyoto, and M. Syukri Mustafa, “Kombinasi Algoritma Sampling dengan Algoritma Klasifikasi untuk Meningkatkan Performa Klasifikasi Dataset Imbalance,” SISFOTEK Sist. Inf. dan Teknol., vol. 5, no. 1, pp. 250–255, 2021.
A. Nugroho and E. Rilvani, “Penerapan Metode Oversampling SMOTE Pada Algoritma Random Forest Untuk Prediksi Kebangkrutan Perusahaan,” Techno.Com, vol. 22, no. 1, pp. 207–214, 2023, doi: 10.33633/tc.v22i1.7527.
J. Sanjaya and M. Ayub, “Augmentasi Data Pengenalan Citra Mobil Menggunakan Pendekatan Random Crop, Rotate, dan Mixup,” J. Tek. Inform. dan Sist. Inf., vol. 6, no. 2, pp. 311–323, 2020, doi: 10.28932/jutisi.v6i2.2688.
K. Maharana, S. Mondal, and B. Nemade, “A review: Data pre-processing and data augmentation techniques,” Glob. Transitions Proc., vol. 3, no. 1, pp. 91–99, 2022, doi: 10.1016/j.gltp.2022.04.020.
D. Alzu’Bi et al., “Kidney Tumor Detection and Classification Based on Deep Learning Approaches: A New Dataset in CT Scans,” J. Healthc. Eng., vol. 2022, 2022, doi: 10.1155/2022/3861161.
A. Mumuni and F. Mumuni, “Data augmentation: A comprehensive survey of modern approaches,” Array, vol. 16, no. November, p. 100258, 2022, doi: 10.1016/j.array.2022.100258.
R. D. Ramadhani, A. N. A. Thohari, C. Cartiko, A. Junaidi, and T. G. Laksana, “Optimasi Akurasi Metode Convolutional Neural Network untuk Klasifikasi Kualitas Buah Apel Hijau,” J. Mnemon., vol. 6, no. 2, pp. 149–156, 2023, doi: https://doi.org/10.36040/mnemonic.v6i2.6730.
D. Bhatt et al., “Cnn variants for computer vision: History, architecture, application, challenges and future scope,” Electron., vol. 10, no. 20, pp. 1–28, 2021, doi: 10.3390/electronics10202470.
M. Resa Arif Yudianto, P. Sukmasetya, R. Abul Hasani, and D. Sasongko, “Pengaruh Data Preprocessing terhadap Imbalanced Dataset pada Klasifikasi Citra Sampah menggunakan Algoritma Convolutional Neural Network,” Build. Informatics, Technol. Sci., vol. 4, no. 3, pp. 1367–1375, 2022, doi: 10.47065/bits.v4i3.2575.
Downloads
Published
Issue
Section
License
License Terms
All articles published in Techno.COM Journal are licensed under the Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0). This means:
1. Attribution
Readers and users are free to:
-
Share – Copy and redistribute the material in any medium or format.
-
Adapt – Remix, transform, and build upon the material.
As long as proper credit is given to the original work by citing the author(s) and the journal.
2. Non-Commercial Use
-
The material cannot be used for commercial purposes.
-
Commercial use includes selling the content, using it in commercial advertising, or integrating it into products/services for profit.
3. Rights of Authors
-
Authors retain copyright and grant Techno.COM Journal the right to publish the article.
-
Authors can distribute their work (e.g., in institutional repositories or personal websites) with proper acknowledgment of the journal.
4. No Additional Restrictions
-
The journal cannot apply legal terms or technological measures that restrict others from using the material in ways allowed by the license.
5. Disclaimer
-
The journal is not responsible for how the published content is used by third parties.
-
The opinions expressed in the articles are solely those of the authors.
For more details, visit the Creative Commons License Page:
? https://creativecommons.org/licenses/by-nc/4.0/