Computer >> 컴퓨터 >  >> 프로그램 작성 >> Python

Tensorflow의 텍스트 데이터에 대한 세분화란 무엇입니까?

<시간/>

분할은 텍스트를 단어와 같은 단위로 나누는 행위를 말합니다. 공백 문자를 사용하여 단어를 구분하는 경우에 사용되지만 중국어, 일본어와 같은 일부 언어에서는 공백을 사용하지 않습니다. 독일어와 같은 일부 언어에는 의미를 분석하기 위해 분할해야 하는 긴 합성어가 포함되어 있습니다.

자세히 알아보기: TensorFlow란 무엇이며 Keras가 TensorFlow와 함께 신경망을 생성하는 방법은 무엇입니까?

자연어를 처리하는 모델은 다른 문자 집합을 가진 다른 언어를 처리합니다. 유니코드는 거의 모든 언어의 문자를 나타내는 데 사용되는 표준 인코딩 시스템으로 간주됩니다. 모든 문자는 0에서 0x10FFFF 사이의 고유 정수 코드 포인트를 사용하여 인코딩됩니다. 유니코드 문자열은 0개 이상의 코드 값 시퀀스입니다.

파이썬을 사용하여 유니코드 문자열을 표현하는 방법과 이에 상응하는 유니코드를 사용하여 조작하는 방법을 이해합시다. 먼저, 표준 문자열 연산에 해당하는 유니코드를 사용하여 스크립트 감지를 기반으로 유니코드 문자열을 토큰으로 분리합니다.

Google Colaboratory를 사용하여 아래 코드를 실행하고 있습니다. Google Colab 또는 Colaboratory는 브라우저를 통해 Python 코드를 실행하는 데 도움이 되며 구성이 필요 없고 GPU(그래픽 처리 장치)에 대한 무료 액세스가 필요합니다. Colaboratory는 Jupyter Notebook을 기반으로 구축되었습니다.

print("Below is the sentence that is processed")
sentence_texts = [u'Hello, there.', u'世界こんにちは']
print("The code point values for characters in the sentence")
sentence_char_codepoint = tf.strings.unicode_decode(sentence_texts, 'UTF-8')
print(sentence_char_codepoint)
print("The unicode script values for characters in the sentence")
sentence_char_script = tf.strings.unicode_script(sentence_char_codepoint)
print(sentence_char_script)

코드 크레딧:https://www.tensorflow.org/tutorials/load_data/unicode

출력

Below is the sentence that is processed
The code point values for characters in the sentence

The unicode script values for characters in the sentence
<tf.RaggedTensor [[25, 25, 25, 25, 25, 0, 0, 25, 25, 25, 25, 25, 0], [17, 17, 20, 20, 20, 20, 20]]>

설명

  • 세그멘테이션은 텍스트를 단어와 같은 단위로 나누는 작업을 말합니다.
  • 공백 문자를 사용하여 단어를 구분할 때 사용하지만 중국어, 일본어 등 일부 언어에서는 공백을 사용하지 않습니다.
  • 독일어와 같은 일부 언어에는 의미를 분석하기 위해 분할해야 하는 긴 합성어가 포함되어 있습니다.
  • 웹에 있는 텍스트의 경우 "NY株価"(뉴욕 증권 거래소)에서와 같이 일반적으로 다른 언어와 스크립트가 함께 혼합되어 있습니다.
  • ML 모델을 사용하지 않고 대략적인 단어 경계로 스크립트를 변경하여 대략적인 세분화를 수행할 수 있습니다.
  • "NY株価"와 같은 문자열에 대해 작동합니다. 다양한 스크립트의 공백 문자는 실제 텍스트와 다른 특수 스크립트 코드인 USCRIPT_COMMON으로 분류되기 때문에 공백을 사용하는 대부분의 언어에서 작동합니다.
  • 위의 코드에서 모든 문장의 모든 문자에 대한 코드포인트가 생성됩니다.
  • 다음으로 모든 문장의 모든 문자에 대한 유니코드 스크립트가 생성됩니다.