Computer >> 컴퓨터 >  >> 프로그램 작성 >> Python

Illiad 데이터 세트는 Python을 사용하여 훈련을 위해 어떻게 준비할 수 있습니까?

<시간/>

Tensorflow는 Google에서 제공하는 기계 학습 프레임워크입니다. 알고리즘, 딥 러닝 애플리케이션 등을 구현하기 위해 Python과 함께 사용되는 오픈 소스 프레임워크입니다. 연구 및 생산 목적으로 사용됩니다.

'tensorflow' 패키지는 아래 코드 줄을 사용하여 Windows에 설치할 수 있습니다. -

pip 설치 텐서플로

Tensor는 TensorFlow에서 사용되는 데이터 구조입니다. 흐름도에서 가장자리를 연결하는 데 도움이 됩니다. 이 흐름도를 '데이터 흐름 그래프'라고 합니다. 텐서는 다차원 배열 또는 목록에 불과합니다.

William Cowper, Edward(Earl of Derby), Samuel Butler의 세 번역 작업의 텍스트 데이터가 포함된 Illiad의 데이터 세트를 사용할 것입니다. 모델은 한 줄의 텍스트가 제공될 때 번역자를 식별하도록 훈련됩니다. 사용된 텍스트 파일은 전처리되었습니다. 여기에는 문서 머리글 및 바닥글, 줄 번호 및 장 제목 제거가 포함됩니다.

Google Colaboratory를 사용하여 아래 코드를 실행하고 있습니다. Google Colab 또는 Colaboratory는 브라우저를 통해 Python 코드를 실행하는 데 도움이 되며 구성이 필요 없고 GPU(그래픽 처리 장치)에 대한 무료 액세스가 필요합니다. Collaboratory는 Jupyter Notebook을 기반으로 구축되었습니다.

예시

다음은 코드 조각입니다 -

print("학습을 위한 데이터 세트 준비")tokenizer =tf_text.UnicodeScriptTokenizer()print("텍스트 데이터를 토큰화하기 위해 'tokenize'라는 함수 정의")def tokenize(text, used_label):lower_case =tf_text.case_fold_utf8 (텍스트) return tokenizer.tokenize(lower_case)tokenized_ds =all_labeled_data.map(tokenize)print("데이터 세트를 반복하고 몇 가지 샘플을 인쇄합니다.") tokenized_ds.take(6)의 text_batch에 대해:print("토큰:", text_batch .numpy())

코드 크레딧 - https://www.tensorflow.org/tutorials/load_data/text

출력

training을 위한 데이터 세트 준비 'tokenize'라는 함수를 정의하여 텍스트 데이터를 토큰화합니다.WARNING:tensorflow:From /usr/local/lib/python3.6/distpackages/tensorflow/python/util/dispatch.py:201:batch_gather( fromtensorflow.python.ops.array_ops)는 더 이상 사용되지 않으며 2017-10-25 이후에 제거될 예정입니다. 업데이트 지침:`tf.batch_gather`는 더 이상 사용되지 않습니다. 대신 `tf.gather`를 `batch_dims=-1`과 함께 사용하십시오.반복 데이터 세트에 대해 몇 가지 샘플 토큰을 인쇄합니다. [b'but' b'i' b'have' b'now' b'both' b'tasted' b'food' b',' b'and' b'given' ]토큰:[b'all' b'these' b'shall' b'now' b'be' b'thine' b':' b'but' b'if' b'the'b'gods']토큰 :[b'그들의' b'spiry' b'정상' b'흔들림' b'.' b'거기' b',' b'unperceived']토큰:[b'"' b'i' b'pray' b'you' b',' b'would' b'you' b'show' b' your' b'love'b',' b'dear' b'friends' b',']토큰:[b'entering' b'beneath' b'the' b'clavicle' b'the' b'point' ]토큰:[b'but' b'grief' b',' b'his' b'father' b'lost' b',' b'awaits' b'him'b'now' b','] 

설명

  • 공백을 제거하여 데이터 세트의 문장을 단어로 분할하는 '토큰화' 기능이 정의됩니다.

  • 이 함수는 데이터세트 전체에서 호출됩니다.

  • 토큰화 후 데이터 세트의 샘플이 콘솔에 표시됩니다.