Evaluasi Pengukuran Semantik Sinonim KBBI Menggunakan Pendekatan Word Embedding
Kamus Besar Bahasa Indonesia (KBBI) ialah salah satu sumber utama penyedia data dalam penelitian penentuan kemiripan makna kata dalam bahasa Indonesia. Penelitian ini membahas cara metode word embedding dan teknik pembobotan term frequency-inverse document frequency (TF-IDF) mengukur tingkat kemirip...
Saved in:
Main Authors: | , , , |
---|---|
Format: | Article |
Language: | English |
Published: |
Universitas Gadjah Mada
2025-05-01
|
Series: | Jurnal Nasional Teknik Elektro dan Teknologi Informasi |
Subjects: | |
Online Access: | https://jurnal.ugm.ac.id/v3/JNTETI/article/view/17117 |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
Summary: | Kamus Besar Bahasa Indonesia (KBBI) ialah salah satu sumber utama penyedia data dalam penelitian penentuan kemiripan makna kata dalam bahasa Indonesia. Penelitian ini membahas cara metode word embedding dan teknik pembobotan term frequency-inverse document frequency (TF-IDF) mengukur tingkat kemiripan pasangan makna kata sinonim untuk mengukur kemiripan pasangan makna kata sinonim dalam KBBI menggunakan cosine similarity dengan memanfaatkan teknik pembobotan TF-IDF dan beberapa model word embedding serta menerapkan latent semantic analysis (LSA). Metodologi penelitian ini dimulai dengan pengumpulan data, kemudian prapemrosesan teks yang terdiri atas case folding, stopword removal, stemming, dan tokenization. Selanjutnya, data yang telah diproses direpresentasikan ke dalam bentuk vektor menggunakan model word embedding, seperti Word2Vec, fastText, GloVe, sentence - bidirectional encoder representations from transformers (Sentence-BERT, S-BERT), dan teknik pembobotan TF-IDF. Lalu, LSA diterapkan untuk mereduksi dimensi vektor sebelum dilakukan uji kesamaan dengan cosine similarity dan diakhiri dengan evaluasi hasil. Hasil penelitian menunjukkan bahwa penggunaan fastText berhasil meningkatkan nilai kesamaan antara makna dua kata sinonim dengan nilai rata-rata yang diperoleh pada uji kesamaan dari 30 pasang makna kata sinonim adalah 0,901, dengan hasil evaluasi menunjukkan akurasi 0,88, recall 1,00, presisi 0,81, dan F1-score 0,90. Temuan ini menyimpulkan bahwa penggunaan fastText lebih efektif dalam meningkatkan akurasi pengukuran kemiripan makna kata sinonim. Rekomendasi untuk penelitian selanjutnya melibatkan perluasan korpus data dan eksplorasi lebih lanjut terhadap word embedding dalam uji kesamaan makna kata. Penelitian ini memberikan kontribusi pada pengembangan pemrosesan bahasa alami dan berpotensi menjadi dasar untuk aplikasi berbasis pemrosesan bahasa yang lebih akurat dalam mengukur kemiripan makna kata dalam KBBI. |
---|---|
ISSN: | 2301-4156 2460-5719 |