Computer >> 컴퓨터 >  >> 프로그램 작성 >> Python

다른 문자열 표현 사이의 변환에 Tensorflow를 어떻게 사용할 수 있습니까?

<시간/>

인코딩된 문자열 스칼라는 '디코드' 방법을 사용하여 코드 포인트 벡터로 변환할 수 있습니다. 코드 포인트의 벡터는 'encode' 방법을 사용하여 인코딩된 string형 스칼라로 변환할 수 있습니다. 인코딩된 string형 스칼라는 'transcode' 방법을 사용하여 다른 인코딩으로 변환할 수 있습니다.

더 읽어보기:TensorFlow란 무엇이며 Keras가 TensorFlow와 협력하여 신경망을 만드는 방법은 무엇입니까?

파이썬을 사용하여 유니코드 문자열을 표현하는 방법과 이에 상응하는 유니코드를 사용하여 조작하는 방법을 이해합시다. 먼저, 표준 문자열 연산에 해당하는 유니코드를 사용하여 스크립트 감지를 기반으로 유니코드 문자열을 토큰으로 분리합니다.

Google Colaboratory를 사용하여 아래 코드를 실행하고 있습니다. Google Colab 또는 Colaboratory는 브라우저를 통해 Python 코드를 실행하는 데 도움이 되며 구성이 필요 없고 GPU(그래픽 처리 장치)에 대한 무료 액세스가 필요합니다. Colaboratory는 Jupyter Notebook을 기반으로 구축되었습니다.

print("Converting encoded string scalar to a vector of code points")
tf.strings.unicode_decode(text_utf8,input_encoding='UTF-8')
print("Converting vector of code points to an encoded string scalar")
tf.strings.unicode_encode(text_chars, output_encoding='UTF-8')
print("Converting encoded string scalar to a different encoding")
tf.strings.unicode_transcode(text_utf8, input_encoding='UTF8', output_encoding='UTF-16-BE')

코드 크레딧:https://www.tensorflow.org/tutorials/load_data/unicode

출력

Converting encoded string scalar to a vector of code points
Converting vector of code points to an encoded string scalar
Converting encoded string scalar to a different encoding
<tf.Tensor: shape=(), dtype=string, numpy=b'\x8b\xed\x8a\x00Y\x04t\x06'>

설명

  • 'unicode_decode' 함수는 인코딩된 문자열 스칼라를 코드 포인트의 벡터로 변환하는 데 사용됩니다.
  • 'unicode_encode' 함수는 코드 포인트의 벡터를 인코딩된 문자열 스칼라로 변환하는 데 사용됩니다.
  • 'unicode_transcode' 함수는 인코딩된 문자열 스칼라를 다른 인코딩으로 변환하는 데 사용됩니다.