데이터 변환에서 데이터는 마이닝에 적합한 형태로 변환되거나 결합됩니다. 데이터 변환에는 다음이 포함될 수 있습니다. -
스무딩 − 데이터에서 노이즈를 제거하는 역할을 할 수 있습니다. 이러한 방법에는 비닝(binning), 회귀 및 클러스터링이 포함됩니다.
집계 − 집계에서 요약 또는 집계 작업이 데이터에 적용됩니다. 예를 들어, 일일 판매 데이터를 집계하여 월간 및 연간 총 금액을 계산할 수 있습니다. 이 단계는 일반적으로 여러 세분성에서 데이터 분석을 위한 데이터 큐브를 만드는 데 사용됩니다.
일반화 − 일반화에서는 개념 계층을 사용하여 더 큰 수준의 개념에 의해 저수준 또는 "기본"(원시) 데이터가 복원됩니다. 예를 들어, 거리와 같은 범주 속성은 도시 또는 국가와 같은 더 큰 수준의 개념으로 일반화될 수 있습니다. 마찬가지로 나이와 같은 숫자 속성 값은 청소년, 중년 및 노인과 같은 더 큰 수준의 개념에 매핑할 수 있습니다.
정규화 − 정규화에서 속성 데이터가 -1.0에서 1.0 또는 0.0에서 1.0과 같이 지정된 작은 범위에 속하도록 조정됩니다.
속성 구성 − 속성 구성에서, 마이닝 프로세스를 용이하게 하기 위해 주어진 속성 세트에서 새로운 속성이 개발되고 추가됩니다.
평활화는 데이터 정리의 한 형태이며 사용자가 데이터 불일치를 수정하기 위해 변환을 지정하는 데이터 정리 프로세스에서 해결되었습니다. 집계 및 일반화는 데이터 축소의 형태로 제공됩니다. 속성은 0.0에서 1.0을 포함하여 지정된 작은 순서 내에서 감소하도록 값을 조정하여 정규화됩니다.
정규화는 신경망이 포함된 분류 알고리즘이나 최근접 이웃 분류 및 클러스터링과 같은 거리 측정에 특히 유용합니다. 분류 마이닝에 신경망 역전파 알고리즘을 사용하는 경우 훈련 튜플에서 측정된 각 속성의 입력 값을 정규화하면 학습 단계의 속도를 높이는 데 도움이 됩니다.
거리 기반 방법의 경우 정규화는 처음에 큰 범위(예:소득)를 가진 속성이 처음에 더 작은 범위(예:이진 속성)를 가진 속성보다 더 중요해지는 것을 방지하는 데 도움이 됩니다. 데이터 정규화에는 다음과 같은 많은 방법이 있습니다. -
최소-최대 정규화 − 원본 데이터에 선형 변환을 구현합니다. minA 및 최대A 속성 A의 최소값과 최대값입니다. 최소-최대 정규화는 A의 값 v를 v ' 에 매핑합니다. 범위 [new_minA , new_maxA ] 계산
$$v'=\frac{v-min_{A}}{max_{A}-min_{A}}(new\_max_{A}- new\_min_{A})+new\_min_{A}$$
Z-점수 정규화 − z-점수 정규화(또는 제로 평균 정규화)에서 속성 A의 값은 A의 평균과 표준 편차를 기반으로 정규화됩니다. A의 값 v는 v '<로 정규화됩니다. /sup> 컴퓨팅으로
$$v'=\frac{v-A^{'}}{\sigma_{A}}$$
여기서 A 및 σA 는 각각 속성 A의 평균과 표준 편차입니다. 이 정규화 방법은 속성 A의 실제 최소값과 최대값을 알 수 없거나 최소값-최대값 정규화를 지배하는 이상값이 있는 경우에 유용합니다.
소수 배율 − Decimal scaling에 의한 정규화는 속성 A 값의 소수점을 변경하여 정규화합니다. A의 최대 절대값을 기준으로 이동된 소수점 수입니다. A의 값 v는 v ′ 컴퓨팅으로
$$v'=\frac{v}{10^{j}}$$
여기서 j는 Max(|v ′ |)<1.