Skip to content Skip to sidebar Skip to footer

Tutorial Data Science Dengan Pyhton : Cara Tokenisasi Kata di Python

Cara Tokenisasi Kata di Python



Tokenisasi kata adalah proses membagi banyak contoh teks menjadi kata-kata. Ini adalah persyaratan dalam tugas pemrosesan bahasa alami di mana setiap kata perlu ditangkap dan dianalisis lebih lanjut seperti mengklasifikasikan dan menghitungnya untuk sentimen tertentu, dll. Perangkat Alat Bahasa Alami (NLTK) adalah pustaka yang digunakan untuk mencapai hal ini. Instal NLTK sebelum melanjutkan dengan program python untuk tokenisasi kata.Cara Tokenisasi Kata di Python

conda install -c anaconda nltk

Selanjutnya kami menggunakan metode word_tokenize untuk membagi paragraf menjadi kata-kata individual.

import nltk

word_data = "It originated from the idea that there are readers who prefer learning new skills from the comforts of their drawing rooms"
nltk_tokens = nltk.word_tokenize(word_data)
print (nltk_tokens)

Ketika kita mengeksekusi kode di atas, hasilnya adalah sebagai berikut.

['It', 'originated', 'from', 'the', 'idea', 'that', 'there', 'are', 'readers', 
'who', 'prefer', 'learning', 'new', 'skills', 'from', 'the',
'comforts', 'of', 'their', 'drawing', 'rooms']

Tokenisasi Kalimat

Kita juga bisa memberi token pada kalimat dalam paragraf seperti kita memberi token pada kata-kata. Kami menggunakan metode sent_tokenize untuk mencapai ini. Di bawah ini adalah contohnya.

import nltk
sentence_data = "Sun rises in the east. Sun sets in the west."
nltk_tokens = nltk.sent_tokenize(sentence_data)
print (nltk_tokens)

Ketika kita mengeksekusi kode di atas, hasilnya adalah sebagai berikut.

['Sun rises in the east.', 'Sun sets in the west.']

Post a Comment for "Tutorial Data Science Dengan Pyhton : Cara Tokenisasi Kata di Python"

close