Computer >> 컴퓨터 >  >> 프로그램 작성 >> Python

파이썬에서 NLTK를 사용하여 텍스트 토큰화


문자 시퀀스와 정의된 문서 단위가 주어지면 토큰화는 토큰이라고 하는 조각으로 자르고 구두점과 같은 특정 문자를 버리는 작업입니다. nltk 및 python 컨텍스트에서 각 토큰을 목록에 넣어 한 번에 각 문자를 반복하는 대신 토큰을 반복할 수 있도록 하는 프로세스입니다.

예를 들어, 입력 문자열이 주어졌을 때 -

Hi man, how have you been?

우리는 결과를 얻어야 합니다 -

['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']

NLTK의 word_tokenize 메서드를 사용하여 이 텍스트를 토큰화할 수 있습니다. 예를 들어,

from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

my_sent = "Hi man, how have you been?"
tokens = word_tokenize(my_sent)

print(tokens)

출력

이것은 출력을 줄 것입니다 -

['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']