Computer >> 컴퓨터 >  >> 프로그램 작성 >> Python

Tensorflow를 사용하여 Python에서 문자 하위 문자열을 작업하려면 어떻게 해야 합니까?

<시간/>

문자 부분 문자열은 Tensorflow의 'strings' 모듈에 있는 'substr' 메서드를 사용하여 Tensorflow와 함께 사용할 수 있습니다. 그런 다음 Numpy 배열로 변환되어 표시됩니다.

자세히 알아보기: TensorFlow란 무엇이며 Keras가 TensorFlow와 함께 신경망을 생성하는 방법은 무엇입니까?

Python을 사용하여 유니코드 문자열을 표현하는 방법과 이에 상응하는 유니코드를 사용하여 문자열을 조작하는 방법을 살펴보겠습니다. 먼저 유니코드 문자열을 표준 문자열 연산에 해당하는 유니코드를 사용하여 스크립트 감지를 기반으로 토큰으로 분리합니다.

Google Colaboratory를 사용하여 아래 코드를 실행하고 있습니다. Google Colab 또는 Colaboratory는 브라우저를 통해 Python 코드를 실행하는 데 도움이 되며 구성이 필요 없고 GPU(그래픽 처리 장치)에 대한 무료 액세스가 필요합니다. Colaboratory는 Jupyter Notebook을 기반으로 구축되었습니다.

print("기본 단위는 바이트입니다.")print("len이 1일 때 1바이트를 반환합니다.")tf.strings.substr(thanks, pos=7, len=1).numpy()print( "단위는 UTF8_CHAR로 지정됩니다.")print("4바이트를 차지합니다.")print(tf.strings.substr(thanks, pos=7, len=1, unit='UTF8_CHAR').numpy()) 

코드 크레딧:https://www.tensorflow.org/tutorials/load_data/unicode

출력

기본 단위는 byte입니다.len이 1이면 1바이트를 반환합니다.단위는 UTF8_CHAR로 지정됩니다.4바이트를 차지합니다.b''

설명

  • tf.strings.substr 작업은 "단위" 매개변수를 사용합니다.
  • 그런 다음 이를 사용하여 "pos" 및 "len" 매개변수에 포함될 오프셋 종류를 결정합니다.