데이터 전처리는 데이터 정리, 유효하지 않은 데이터 제거, 노이즈 제거, 데이터를 관련 값으로 교체하는 등의 작업을 의미합니다. 이것이 항상 텍스트 데이터를 의미하는 것은 아닙니다. 이미지나 비디오 처리도 가능합니다.
데이터 전처리는 기본적으로 모든 데이터(다양한 리소스 또는 단일 리소스에서 수집됨)를 공통 형식 또는 단일 데이터 세트(데이터 유형에 따라 다름)로 수집하는 작업을 의미합니다. 실제 데이터는 결코 이상적이지 않으므로 데이터에 누락된 셀, 오류, 이상값, 열 불일치 등이 있을 가능성이 있습니다.
경우에 따라 이미지가 올바르게 정렬되지 않거나 선명하지 않거나 크기가 매우 클 수 있습니다. 전처리의 목표는 이러한 불일치와 오류를 제거하는 것입니다.
scikit-learn 라이브러리를 사용하여 이미지를 업로드하고 콘솔에서 보는 예를 살펴보겠습니다. −
예
from skimage import io path = "path to puppy.PNG" img = io.imread(path) print("Image being read") io.imshow(img) print("Image printed on console")
출력
설명
- 필수 라이브러리를 가져옵니다.
- 이미지가 저장되는 경로가 정의됩니다.
- 'imread' 함수는 경로를 방문하여 이미지를 읽는 데 사용됩니다.
- 이미지를 읽은 후 픽셀 값이 배열 형태로 저장됩니다.
- 이 배열은 Numpy 배열에 불과합니다.
- 이미지를 읽고 배열로 변환합니다.
- 'imshow' 기능은 콘솔에 이미지를 표시하는 데 사용됩니다.
- 데이터가 콘솔에 표시됩니다.