다음과 같은 분류 또는 예측 단계의 정확도, 효율성 및 확장성을 촉진하기 위해 데이터에 사용할 수 있는 다음과 같은 전처리 단계가 있습니다. -
-
데이터 정리 - 이것은 평활화 방법과 결측값의 연산을 사용하여 잡음을 제거하거나 줄이기 위한 데이터의 전처리를 정의합니다(예:해당 속성에 대해 가장 일반적으로 나타나는 값으로 결측값을 복원하거나 통계). 다양한 분류 알고리즘에는 잡음이 있거나 누락된 정보를 관리하기 위한 몇 가지 구조가 있지만 이 단계는 학습 중 혼란을 줄이는 데 도움이 될 수 있습니다.
-
관련성 분석 − 분류 또는 예측 작업과 관련이 없을 수 있는 데이터의 다양한 속성이 있습니다. 예를 들어, 은행 대출 소프트웨어가 채워진 요일을 기록하는 데이터는 소프트웨어의 성공과 관련이 있을 것 같지 않습니다. 또한 일부 다른 속성은 중복될 수 있습니다.
따라서 학습 절차에서 관련성이 없거나 중복된 일부 속성을 삭제하기 위해 데이터에 관련성 분석을 구현할 수 있습니다. 머신 러닝에서는 이 단계를 기능 선택이라고 합니다. 여기에는 속도를 늦추고 학습 단계를 오도할 수 있는 속성이 포함되어 있습니다.
올바르게, 관련성 분석에 사용된 시간은 결과 "축소된" 기능 하위 집합에서 학습에 사용된 시간에 삽입될 때 초기 기능 세트에서 학습에 사용된 시간보다 작아야 합니다. 따라서 이러한 분석은 분류 효율성과 확장성을 높이는 데 도움이 될 수 있습니다.
-
데이터 변환 − 데이터를 더 큰 수준의 접근 방식으로 일반화할 수 있습니다. 이러한 목표를 위해 개념 계층을 사용할 수 있습니다. 이는 연속 값 속성에 특히 유용합니다. 예를 들어, 속성 소득에 대한 수학적 값은 낮음, 중간 및 높음을 포함하는 이산 필드로 일반화될 수 있습니다. 마찬가지로 거리와 같은 명목 가치 속성은 도시와 같은 더 큰 수준의 개념으로 일반화될 수 있습니다.
일반화는 초기 훈련 데이터를 단축하기 때문에 학습 중에 더 적은 수의 입력/출력 작업이 포함될 수 있습니다. 데이터는 특히 학습 단계에서 거리 측정을 포함하는 기술이나 신경망이 사용될 때 정규화될 수 있습니다.
정규화에는 -1.0에서 1.0 또는 0에서 1.0을 포함하여 지정된 작은 영역 내에서 감소하도록 지정된 속성에 대한 모든 값의 크기 조정이 포함됩니다. 예를 들어 거리 측정을 적용하는 이러한 접근 방식에서는
에서 원래 높은 범위(예:소득)가 있는 속성을 피할 수 있습니다.