Penilaian Esai Pendek Otomatis Berdasarkan Similaritas Semantik dengan SBERT

Authors

  • Nurul Chamidah Universitas Pembangunan Nasional Veteran Jakarta https://orcid.org/0000-0003-3515-7051
  • Mayanda Mega Santoni Universitas Pembangunan Nasional Veteran Jakarta
  • Helena Nurramdhani Irmanda Universitas Pembangunan Nasional Veteran Jakarta
  • Ria Astriratma Universitas Pembangunan Nasional Veteran Jakarta
  • Yulnelly Yulnelly Universitas Pembangunan Nasional Veteran Jakarta

DOI:

https://doi.org/10.33633/tc.v21i4.6758

Keywords:

Penilaian Esai Otomatis, SBERT, Semantik, Esai

Abstract

Ujian dalam bentuk soal esai dianggap lebih baik dalam mengukur pemahaman dari pada soal berbentuk pilihan. Namun, jawaban esai memerlukan waktu dan tenaga lebih banyak untuk dievaluasi dan sering terjadi inkonsistensi. Maka dari itu, diperlukan suatu sistem penilaian esai otomatis yang dapat membantu evaluator dalam memberikan nilai dengan lebih cepat dan lebih konsisten. Penelitian ini bertujuan untuk mengevaluasi performa model penilaian esai otomatis dimana teks esai jawaban uji dan kunci jawaban dibandingkan secara semantik untuk mengetahui seberapa besar persamaan antara teks jawaban uji dan kunci jawaban. Semantik dari teks esai diperoleh dengan melakukan word embeddings dengan memanfaatkan model bahasa pretrained Siamese-BERT (SBERT) yang mentransformasi teks esai menjadi vektor sepanjang 512. Proses penilaian esai otomatis ini dimulai dengan praproses pada teks dengan menerapkan case folding, berikutnya word embeddings pada teks yang telah di praproses dengan SBERT. Vektor numerik dari kunci jawaban dan jawaban uji hasil word embeddings kemudian dibandingkan dengan Cosine Similarity untuk mendapatkan similaritas semantik sekaligus nilai esai yang merupakan output model. Evaluasi model penilaian esai otomatis ini dilakukan dengan membandingkan nilai dari model dengan nilai dari evaluator manusia. Pengukuran yang dipakai untuk mengukur performa penilaian esai otomatis ini adalah adalah dengan menghitung Mean Absolute Error (MAE) dan Pearson Correlation, dimana hasil penelitian ini menunjukan nilai rata-rata MAE sebesar 0.26 dan rata-rata korelasi sebesar 0.78.

Author Biography

Nurul Chamidah, Universitas Pembangunan Nasional Veteran Jakarta

Fakultas Ilmu Komputer, UPN Veteran Jakarta

References

H. Rababah and A. T. Al-Taani, “An automated scoring approach for Arabic short answers essay questions,” in ICIT 2017 - 8th International Conference on Information Technology, Proceedings, Oct. 2017, pp. 697–702. doi: 10.1109/ICITECH.2017.8079930.

R. Adhitia and A. Purwarianti, “PENILAIAN ESAI JAWABAN BAHASA INDONESIA MENGGUNAKAN METODE SVM - LSA DENGAN FITUR GENERIK,” Jurnal Sistem Informasi, vol. 5, no. 1, p. 33, Jul. 2012, doi: 10.21609/jsi.v5i1.260.

X. Peng, D. Ke, and B. Xu, “Automated Essay Scoring Based on Finite State Transducer: towards ASR Transcription of Oral English Speech,” pp. 8–14, 2012.

Y. Farag, H. Yannakoudakis, and T. Briscoe, “Neural Automated Essay Scoring and Coherence Modeling for Adversarially Crafted Input,” NAACL HLT 2018 - 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies - Proceedings of the Conference, vol. 1, pp. 263–271, Apr. 2018, doi: 10.48550/arxiv.1804.06898.

E. B. Page, “Computer grading of student prose, using modern concepts and software,” The Journal of experimental education, vol. 62, no. 2, pp. 127–142, 1994.

S. Valenti, S. Valenti, F. Neri, and A. Cucchiarelli, “An Overview of Current Research on Automated Essay Grading,” Journal of Information Technology Education: Research, vol. 2, no. 1, pp. 319–330, 2003.

R. B. Aji, Z. A. Baisal, and Y. Firdaus, “Automatic Essay Grading System Menggunakan Metode Latent Semantic Analysis E-78 E-79,” Seminar Nasional Aplikasi Teknologi Informasi, vol. 2011, no. Snati, pp. 1–9, 2011.

J. Zeniarja, A. Salam, and I. Achsanu, “Sistem Koreksi Jawaban Esai Otomatis (E-Valuation) dengan Vector Space Model pada Computer Based Test (CBT),” Seri Prosiding Seminar Nasional Dinamika Informatika, vol. 4, no. 1, Apr. 2020.

F. Rahutomo, Y. P. Putra, and M. H. Ali, “Implementasi Manhattan Distance dan Dice Similarity pada Ujian Esai Daring Berbahasa Indonesia,” Seminar Informatika Aplikatif Polinema, pp. 171–174, 2019, Accessed: Aug. 04, 2020.

N. Chamidah, M. Mega Santoni, H. Nurramdhani Irmanda, R. Astriratma, F. Ilmu Komputer, and U. Pembangunan Nasional Veteran Jakarta, “Penilaian Esai Pendek Otomatis dengan Pencocokan Kata Kunci Frasa Nomina,” Techno.Com, vol. 20, no. 4, pp. 489–498, Nov. 2021, doi: 10.33633/tc.v20i4.5043.

F. Ginter and J. Kanerva, “Fast training of word2vec representations using n-gram corpora,” 2014.

M. Beseiso and S. Alzahrani, “An empirical analysis of BERT embedding for automated essay scoring,” International Journal of Advanced Computer Science and Applications, vol. 11, no. 10, 2020.

J. Devlin, M. W. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,” NAACL HLT 2019 - 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies - Proceedings of the Conference, vol. 1, pp. 4171–4186, Oct. 2018, doi: 10.48550/arxiv.1810.04805.

P. U. Rodriguez, A. Jafari, and C. M. Ormerod, “Language models and Automated Essay Scoring,” 2019.

N. Reimers and I. Gurevych, “Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks,” EMNLP-IJCNLP 2019 - 2019 Conference on Empirical Methods in Natural Language Processing and 9th International Joint Conference on Natural Language Processing, Proceedings of the Conference, pp. 3982–3992, Aug. 2019, doi: 10.48550/arxiv.1908.10084.

F. Pratama, “Rancang Bangun Aplikasi Peringkas Tkes Otomatis Artikel Berbahasa Indonesia Mengunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) dan K-mean Clustering,” Fakultas Sains dan Teknologi, Apr. 2014.

A. Vaswani et al., “Attention is All you Need,” Advances in Neural Information Processing Systems, vol. 30, 2017.

T. F. de C. Marshall and J. L. Fleiss, “Statistical Methods for Rates and Proportions.,” The Statistician, vol. 25, no. 1, p. 70, 1976, doi: 10.2307/2988144.

Jiawei. Han, Micheline. Kamber, and Jian. Pei, Data Mining: Concepts and Techniques. Elsevier Science, 2012. doi: 10.1016/C2009-0-61819-5.

G. Brassington, “Mean absolute error and root mean square error: which is the better metric for assessing model performance?,” Geophysical Research Abstracts, vol. 19, pp. 2017–3574, 2017.

Downloads

Published

2022-11-30