문자 시퀀스와 정의된 문서 단위가 주어지면 토큰화는 토큰이라고 하는 조각으로 자르고 구두점과 같은 특정 문자를 버리는 작업입니다. nltk 및 python 컨텍스트에서 각 토큰을 목록에 넣어 한 번에 각 문자를 반복하는 대신 토큰을 반복할 수 있도록 하는 프로세스입니다.
예를 들어, 입력 문자열이 주어졌을 때 -
Hi man, how have you been?
우리는 결과를 얻어야 합니다 -
['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']
NLTK의 word_tokenize 메서드를 사용하여 이 텍스트를 토큰화할 수 있습니다. 예를 들어,
예
from nltk.corpus import stopwords from nltk.tokenize import word_tokenize my_sent = "Hi man, how have you been?" tokens = word_tokenize(my_sent) print(tokens)
출력
이것은 출력을 줄 것입니다 -
['Hi', 'man', ',', 'how', 'have', 'you', 'been', '?']