Computer >> 컴퓨터 >  >> 프로그램 작성 >> Python

Tensorflow 및 Python과 관련하여 uncide 스크립트는 무엇입니까?

<시간/>

모든 유니코드 코드 포인트는 스크립트라고 하는 단일 코드 포인트 컬렉션에 속합니다. 캐릭터의 스크립트는 캐릭터가 속할 언어를 결정합니다. TensorFlow는 주어진 코드포인트에서 사용할 스크립트를 찾는 데 도움이 되는 'strings.unicode_script' 메서드와 함께 제공됩니다. 스크립트 코드는 ICU(International Components for Unicode) UScriptCode 값에 매핑할 수 있는 int32 값입니다.

자세히 알아보기: TensorFlow란 무엇이며 Keras가 TensorFlow와 함께 신경망을 생성하는 방법은 무엇입니까?

Python을 사용하여 유니코드 문자열을 표현하는 방법과 이에 상응하는 유니코드를 사용하여 문자열을 조작하는 방법은 다루지 않습니다. 먼저 유니코드 문자열을 표준 문자열 연산에 해당하는 유니코드를 사용하여 스크립트 감지를 기반으로 토큰으로 분리합니다.

Google Colaboratory를 사용하여 아래 코드를 실행하고 있습니다. Google Colab 또는 Colaboratory는 브라우저를 통해 Python 코드를 실행하는 데 도움이 되며 구성이 필요 없고 GPU(그래픽 처리 장치)에 대한 무료 액세스가 필요합니다. Colaboratory는 Jupyter Notebook을 기반으로 구축되었습니다.

print("The below represent '芸' and 'Б' respectively")
uscript = tf.strings.unicode_script([33464, 1041])  
print(uscript.numpy())   # [17, 8] == [USCRIPT_HAN, USCRIPT_CYRILLIC]
print("Applying to multidimensional strings")
print(tf.strings.unicode_script(batch_chars_ragged))

코드 크레딧:https://www.tensorflow.org/tutorials/load_data/unicode

출력

The below represent '芸' and 'Б' respectively
[17   8]
Applying to multidimensional strings
<tf.RaggedTensor [[25, 25, 25, 25, 25], [25, 25, 25, 25, 0, 25, 25, 0, 25, 25, 25, 0, 25, 25, 25, 25, 25, 25, 25, 0, 25, 25, 25, 25, 25, 25, 25, 25], [25, 25, 25, 25, 25, 25, 25, 25, 25], [0]]>

설명

  • 모든 유니코드 코드 포인트는 스크립트라고 하는 단일 코드 포인트 컬렉션에 속합니다.
  • 캐릭터의 스크립트는 캐릭터가 속할 수 있는 언어를 결정하는 데 도움이 됩니다.
  • TensorFlow는 주어진 코드포인트가 사용할 스크립트를 찾기 위해 tf.strings.unicode_script 작업을 제공합니다.
  • 스크립트 코드는 ICU(International Components for Unicode) UScriptCode 값에 매핑되는 int32 값입니다.
  • tf.strings.unicode_script 작업은 코드 포인트의 다차원 tf.Tensor 또는 tf.RaggedTensor에도 적용할 수 있습니다.