데이터 전처리는 데이터 정리, 유효하지 않은 데이터 제거, 노이즈 제거, 데이터를 관련 값으로 교체하는 등의 작업을 의미합니다.
이것이 항상 텍스트 데이터를 의미하는 것은 아닙니다. 또한 이미지 또는 비디오 처리도 가능합니다. 이는 머신 러닝 파이프라인에서 중요한 단계입니다.
데이터 전처리는 기본적으로 모든 데이터(다양한 리소스 또는 단일 리소스에서 수집됨)를 공통 형식 또는 단일 데이터 세트(데이터 유형에 따라 다름)로 수집하는 작업을 말합니다.
이는 학습 알고리즘이 이 데이터 세트에서 학습하고 높은 정확도로 관련 결과를 제공할 수 있도록 수행됩니다. 실제 데이터는 결코 이상적이지 않으므로 데이터에 누락된 셀, 오류, 이상값, 열 불일치 등이 있을 가능성이 있습니다.
경우에 따라 이미지가 올바르게 정렬되지 않거나 선명하지 않거나 크기가 매우 클 수 있습니다. 전처리의 목표는 이러한 불일치와 오류를 제거하는 것입니다. 데이터 전처리는 단일 작업이 아니라 단계적으로 수행되는 일련의 작업입니다.
한 단계의 출력이 다음 단계의 입력이 되는 식입니다.
숫자 값을 부울 값으로 변환하는 예를 살펴보겠습니다. -
예시
import numpy as np from sklearn import preprocessing input_data = np.array([[34.78, 31.9, -65.5],[-16.5, 2.45, -83.5],[0.5, -87.98, 45.62], [5.9, 2.38, -55.82]]) data_binarized = preprocessing.Binarizer(threshold=0.5).transform(input_data) print("\Values converted from numeric to Boolean :\n", data_binarized)
출력
Values converted from numeric to Boolean : [[1. 1. 0.] [0. 1. 0.] [0. 0. 1.] [1. 1. 0.]]
설명
- 필수 패키지를 가져옵니다.
- 입력 데이터는 Numpy 라이브러리를 사용하여 생성됩니다.
- sklearn의 '전처리' 클래스에 있는 'Binarizer' 함수는 수치를 Boolean 값으로 변환하는 데 사용됩니다.
- 부울 값은 기본적으로 1과 0만 참조합니다.
- 변환된 데이터는 콘솔에 인쇄됩니다.