데이터 전처리는 기본적으로 모든 데이터(다양한 리소스 또는 단일 리소스에서 수집됨)를 공통 형식 또는 단일 데이터 세트(데이터 유형에 따라 다름)로 수집하는 작업을 말합니다.
실제 데이터는 결코 이상적이지 않으므로 데이터에 누락된 셀, 오류, 이상값, 열 불일치 등이 있을 가능성이 있습니다.
경우에 따라 이미지가 올바르게 정렬되지 않거나 선명하지 않거나 크기가 매우 클 수 있습니다. 전처리의 목표는 이러한 불일치와 오류를 제거하는 것입니다.
이미지의 픽셀을 가져오기 위해 'flatten'이라는 내장 함수가 사용됩니다. 이미지를 읽은 후 픽셀 값은 데이터 프레임 형태로 저장됩니다. 'flatten' 함수는 RGB 이미지의 3차원을 단일 차원으로 변환하고 픽셀 값을 데이터 프레임으로 가져오는 데 사용됩니다.
전체 데이터 프레임을 인쇄하는 대신 데이터 프레임의 치수가 인쇄됩니다. scikit-learn 라이브러리를 사용하여 이미지를 업로드하고 이미지에 존재하는 픽셀을 데이터 프레임으로 가져오는 예를 살펴보겠습니다. -
예시
from skimage import io import pandas as pd path = "path to puppy.PNG" img = io.imread(path) print("Image being read") io.imshow(img) print("Image printed on console") my_df = pd.DataFrame(img.flatten()) print("The image pixels dimensions are ") print(my_df.shape)
출력
Image being read Image printed on console The image pixels dimensions are (886104, 1)
설명
-
필요한 라이브러리를 가져옵니다.
-
이미지가 저장되는 경로가 정의됩니다.
-
'imread' 함수는 경로를 방문하여 이미지를 읽는 데 사용됩니다.
-
'imshow' 기능은 콘솔에 이미지를 표시하는 데 사용됩니다.
-
'flatten' 함수는 RGB 이미지의 3차원을 단일 차원으로 변환하고 픽셀 값을 데이터 프레임으로 가져오는 데 사용됩니다.
-
행이 너무 많은 데이터 프레임을 인쇄하는 대신 데이터 프레임의 크기가 표시됩니다.
-
데이터 프레임은 'print(my_df)'를 사용하여 볼 수 있습니다. .
-
출력은 콘솔에 인쇄된 이미지 픽셀 값이 있는 데이터 프레임입니다.