Computer >> 컴퓨터 >  >> 프로그램 작성 >> Python

Tensorflow를 사용하여 꽃 데이터 세트를 학습 및 검증으로 분할하는 방법은 무엇입니까?

<시간/>

꽃 데이터 세트는 검증 세트에 대한 백분율 분할을 요청하는 'image_dataset_from_directory'의 도움으로 keras 사전 처리 API를 사용하여 학습 및 검증 세트로 분할할 수 있습니다.

자세히 알아보기: TensorFlow란 무엇이며 Keras가 TensorFlow와 함께 신경망을 생성하는 방법은 무엇입니까?

이미지 분류기는 keras.Sequential 모델을 사용하여 생성되고 데이터는 preprocessing.image_dataset_from_directory를 사용하여 로드됩니다. . 데이터는 디스크에서 효율적으로 로드됩니다. 과적합이 식별되고 이를 완화하기 위한 기술이 적용됩니다. 이러한 기술에는 데이터 증대 및 드롭아웃이 포함됩니다. 3700개의 꽃 이미지가 있습니다. 이 데이터셋은 5개의 하위 디렉터리를 포함하며 클래스당 하나의 하위 디렉터리가 있습니다. 데이지, 민들레, 장미, 해바라기, 튤립입니다.

Google Colaboratory를 사용하여 아래 코드를 실행하고 있습니다. Google Colab 또는 Colaboratory는 브라우저를 통해 Python 코드를 실행하는 데 도움이 되며 구성이 필요 없고 GPU(그래픽 처리 장치)에 대한 무료 액세스가 필요합니다. Colaboratory는 Jupyter Notebook을 기반으로 구축되었습니다.

batch_size = 32
img_height = 180
img_width = 180
print("The data is being split into training and validation set")
train_ds = tf.keras.preprocessing.image_dataset_from_directory(
   data_dir,
   validation_split=0.2,
   subset="training",
   seed=123,
   image_size=(img_height, img_width),
   batch_size=batch_size)

코드 크레딧:https://www.tensorflow.org/tutorials/images/classification

출력

The data is being split into training and validation set
Found 3670 files belonging to 5 classes.
Using 2936 files for training.

설명

  • 이 이미지는 image_dataset_from_directory 유틸리티를 사용하여 디스크에서 로드됩니다.
  • 디스크의 이미지 디렉토리에서 tf.data.Dataset으로 이동합니다.
  • 데이터가 다운로드되면 로더에 대해 일부 매개변수가 정의됩니다.
  • 데이터는 학습 및 검증 세트로 분할됩니다.