Penerapan Small Language Model Berbasis Retrieval- Augmented Generation untuk Pemahaman Dokumen Teknis
Keywords:
Small Language Model, Retrieval-Augmented Generation, Question Answering, Dokumen Teknis, Sistem InformasiAbstract
Sistem tanya jawab berbasis model bahasa pada dokumen teknis sering menghadapi keterbatasan
konteks dan kecenderungan menghasilkan jawaban yang tidak didukung oleh sumber informasi yang valid.
Untuk mengatasi permasalahan tersebut, penelitian ini menerapkan pendekatan Retrieval-Augmented
Generation (RAG) dengan memanfaatkan Small Language Model (SLM) sebagai mekanisme inferensi
utama. Dokumen teknis diproses melalui tahapan ekstraksi teks, pemisahan berbasis struktur dokumen,
dan chunking semantik untuk membentuk unit informasi yang koheren, yang selanjutnya direpresentasikan
dalam bentuk embedding vektor dan disimpan dalam basis data vektor berbasis FAISS. Pada tahap
inferensi, pertanyaan pengguna dipetakan ke dalam ruang vektor untuk memperoleh konteks yang paling
relevan, yang kemudian digunakan oleh SLM dalam menghasilkan jawaban yang dibatasi secara ketat
pada informasi yang tersedia dalam dokumen. Hasil eksperimen menunjukkan bahwa pendekatan SLM
berbasis RAG mampu menghasilkan jawaban yang lebih relevan dan konsisten terhadap sumber dokumen
serta secara efektif mengurangi kecenderungan hallucination dibandingkan dengan pendekatan generatif
tanpa mekanisme retrieval.