Makalah tentang Tokenisasi,
Stopword Removal, dan Stemming
Oleh
:
Hafiyan
Nafan Kusuma Satria (16.01.63.0004)
Septina Budi Kurniawati (15.01.63.0020)
Septina Budi Kurniawati (15.01.63.0020)
Dosen Pengampu :
Dr. Drs.
Eri Zuliarso,M.Kom
FAKULTAS TEKNOLOGI INFORMASI
UNIVERSITAS STIKUBANK
SEMARANG
2017
Information Retrieval
Pengertian
Information Retrieval atau Penelususran Kembali Sistem Informasi adalah
bagian dari ilmu komputer yang berhubungan dengan pengambilan informasi
dari dokumen-dokumen yang didasarkan pada isi dan konteks dari
dokumen-dokumen itu sendiri.
Proses dalam sistem temu kembali dapat digambarkan sebagai sebuah
proses untuk mendapatkan dokumen yang relevan dari koleksi dokumen melalui
pencarian query yang diimputkan user.
Salton menjelaskan bahwa sistem temu kembali informasi bertujuan
untuk menjembatani kebutuhan informasi user dengan sumber informasi yang
tersedia dalam situasi seperti dikemukakan sebagai berikut:[Salton:1989].
- Mempresentasikan sekumpulan ide dalam sebuah dokumen menggunakan sekumpulan konsep.
- Terdapat beberapa pengguna yang memerlukan ide, tapi tidak dapat mengidentifikasikan dan menemukannya dengan baik.
- Sistem temu kembali informasi bertujuan untuk mempertemukan ide yang dikemukakan oleh penulis dalam dokumen dengan kebutuhan informasi pengguna yang dinyatakan dalam bentuk key word query/istilah penelusuran.
Tokenisasi
Di dalam sistem temu kembali terdapat proses text mining yang memiliki
definisi menambang data yang berupa teks dimana sumber data biasanya didapat
dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat mewakili isi
dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen.
Tahapan yang dilakukan secara umum dalam text mining adalah : tokenizing, filtering, stemming. Pada proses tersebut masing-masing melakukan fungsinya
masing-masing. Proses tokenizing adalah tahap pemotongan string input
berdasarkan tiap kata yang menyusunnya. Proses ini menghasilkan kata –kata yang
berdiri sendiri.
Apakah proses tokenizing penting untuk dilakukan ?
Sangat penting, karena didalam proses ini merupakan tahap pemotongan
string input berdasarkan tiap kata yang menyusunnya. Proses ini menghasilkan
kata –kata yang berdiri sendiri. Dan kemudian dilakukan proses filtering. Tahap
filtering mengambil kata-kata yang penting dari hasil proses token. Dan setelah
itu baru dilakukan proses stemming , tagging dan analyzing. Sehingga antara
tahap – tahap ini saling terkait dan berhubungan.
Stopword
Modul Pembuangan stopword (filtering). Tahap filtering
adalah proses pembuangan term yang tidak memiliki arti atau tidak relevan.
Term yang diperoleh pada tahap tokenisasi dicek dalam suatu daftar
stopword, jika term masuk dalam daftar stopword maka term tidak akan
diproses lebih lanjut, tapi jika term tidak termasuk dalam daftar stopword
maka term akan diproses lebih lanjut. Contoh stopwords adalah “yang”,
“dan”, “di”, “dari” dan seterusnya.
Stemmming
Stemmming merupakan salah satu proses dari pembuatan sistem temu
kembali, dimana proses stemming akan dilakukan setelah proses filtering. Proses
stemming ini membuat term yang ada pada tabel filtering menjadi kata dasar,
dengan menghilankan semua imbuhan yang ada pada kata tersebut (imbuhan meng-, me-,
kan-, di- , i, pe, peng-, a-, dll.)
Pentingnya stemming dalam proses pembuatan sistem temu kembali yakni
dimana saat menghilangkan imbuhan pada sebuah kata menjadi hal yang perlu
diperhatikan. Karena dalam proses stemming yang penting yakni terlebih untuk
menghilangkan imbuhan pada awalan setelah itu akhiran. Apabila yang dilakukan
adalah sebaliknya maka tidak akan ditemukan kata dasar yang tepat dan sesuai
dengan kamus bahasa. Dimana dari hasil proses tersebut akan didapatkan sebuah
informasi mengenai banyaknya term yang muncul dalam sebuah dokumen setelah
dilakukan perhitungan term frequency.
Manfaat dari proses stemming yakni :
- Hasil pencarian kemunculan term dapat dijadikan sebagai perhitungan dokumen.
- Dapat meningkatkan jumlah dokumen yang terambil sebelum dilakukan pengindeksan