Python을 사용하여 스택 오버플로 질문 데이터 세트를 구성하는 데 Tensorflow를 어떻게 사용할 수 있습니까?

<시간/>

Tensorflow는 Google에서 제공하는 기계 학습 프레임워크입니다. 알고리즘, 딥 러닝 애플리케이션 등을 구현하기 위해 Python과 함께 사용되는 오픈 소스 프레임워크입니다. 연구 및 생산 목적으로 사용됩니다. 복잡한 수학 연산을 빠르게 수행하는 데 도움이 되는 최적화 기술이 있습니다. NumPy와 다차원 배열을 사용하기 때문입니다. 이러한 다차원 배열을 '텐서'라고도 합니다.

이 프레임워크는 심층 신경망 작업을 지원합니다. 확장성이 뛰어나고 많은 인기 있는 데이터 세트와 함께 제공됩니다. GPU 계산을 사용하고 리소스 관리를 자동화합니다. 수많은 기계 학습 라이브러리와 함께 제공되며 잘 지원되고 문서화되어 있습니다. 이 프레임워크는 심층 신경망 모델을 실행하고 훈련하며 각 데이터 세트의 관련 특성을 예측하는 애플리케이션을 생성하는 기능을 가지고 있습니다.

'tensorflow' 패키지는 아래 코드 줄을 사용하여 Windows에 설치할 수 있습니다. -

pip install tensorflow

Tensor는 TensorFlow에서 사용되는 데이터 구조입니다. 흐름도에서 가장자리를 연결하는 데 도움이 됩니다. 이 흐름도를 '데이터 흐름 그래프'라고 합니다. 텐서는 다차원 배열 또는 목록에 불과합니다. 세 가지 주요 속성을 사용하여 식별할 수 있습니다.

순위 - 텐서의 차원에 대해 알려줍니다. 텐서의 순서 또는 정의된 텐서의 차원 수로 이해할 수 있습니다.
유형 - Tensor의 요소와 관련된 데이터 유형에 대해 알려줍니다. 1차원, 2차원 또는 n차원 텐서일 수 있습니다.
모양 - 행과 열의 개수입니다.

Google Colaboratory를 사용하여 아래 코드를 실행하고 있습니다. Google Colab 또는 Colaboratory는 브라우저를 통해 Python 코드를 실행하는 데 도움이 되며 구성이 필요 없고 GPU(그래픽 처리 장치)에 대한 무료 액세스가 필요합니다. Colaboratory는 Jupyter Notebook을 기반으로 구축되었습니다.

예시

다음은 코드 조각입니다 -

AUTOTUNE = tf.data.experimental.AUTOTUNE
print("The configure_dataset method is defined")
def configure_dataset(dataset):
   return dataset.cache().prefetch(buffer_size=AUTOTUNE)

print("The function is called on training dataset")
binary_train_ds = configure_dataset(binary_train_ds)
print("The function is called on validation dataset")
binary_val_ds = configure_dataset(binary_val_ds)
print("The function is called on test dataset")
binary_test_ds = configure_dataset(binary_test_ds)

int_train_ds = configure_dataset(int_train_ds)
int_val_ds = configure_dataset(int_val_ds)
int_test_ds = configure_dataset(int_test_ds)

코드 크레딧 - https://www.tensorflow.org/tutorials/load_data/text

출력

The configure_dataset method is defined
The function is called on training dataset
The function is called on validation dataset
The function is called on test dataset

설명

데이터를 로드하는 동안 입력 또는 출력이 차단되지 않도록 두 가지 방법을 정의하는 것이 중요합니다.
'캐시' 방식은 디스크에서 로드된 후에도 데이터를 메모리에 유지합니다.
이렇게 하면 데이터가 훈련 중에 방해가 되지 않습니다.
'프리페치' 방식은 훈련 과정에서 데이터 전처리와 모델 실행에 과부하가 걸립니다.