변수 변환은 변수의 일부 값에 사용되는 변환을 정의합니다. 즉, 모든 개체에 대해 해당 개체에 대한 변수 값에 대한 회전이 사용됩니다. 예를 들어, 변수의 의미만 중요하다면 절대값을 생성하여 변수의 값을 변경할 수 있습니다.
변수 변환에는 단순 기능 변환과 정규화의 두 가지 유형이 있습니다.
간단한 기능
간단한 수학 함수는 각 값에 독립적으로 사용됩니다. r이 변수인 경우 이러한 변환의 예에는 x k 가 포함됩니다. ,logx, e x ,$\sqrt{x}$,$\frac{1}{x}$,sinx 또는 |x|. 통계에서 변수 변환, 특히 sqrt, log 및 1/x는 가우스(정규) 분포가 없는 정보로 변환 레코드에 적용됩니다. 이것이 필수적일 수 있지만 데이터 마이닝에서 몇 가지 이유가 우선할 수 있습니다.
관심 변수가 세션의 여러 데이터 바이트이고 몇 바이트의 범위가 10억에서 10억 사이라고 가정합니다. 이것은 큰 범위이며 log10 변환을 사용하여 압축하는 것이 유리할 수 있습니다. 이 경우 10 8 을 전송한 세션 및 10 9 바이트는 10 및 1000바이트를 전송한 세션보다 서로 더 유사합니다(9 - 8 =1 대 3 - 1 =2).
변수 변환은 데이터의 특성을 변경하므로 주의해서 적용해야 합니다. 변환의 기능이 완전히 존중되지 않으면 문제가 발생할 수 있습니다. 예를 들어, 변환 1/x는 1 이상의 값의 유의성은 감소하지만 0과 1 사이의 값의 유의성은 증가합니다.
정규화 또는 표준화
변수 변환의 또 다른 일반적인 유형은 변수의 표준화 또는 정규화입니다. 표준화 또는 정규화의 목적은 특정 속성을 가진 전체 값 그룹을 만드는 것입니다. 일반적인 예는 통계에서 "변수 표준화"의 경우입니다. x ' 인 경우 속성 값의 평균(평균)이고 sx , 표준편차, 변환 x ' =(x –x ' )/ sx ) 평균이 0이고 표준 편차가 1인 새 변수를 생성합니다.
다른 변수가 어떤 식으로든 결합되어야 하는 경우 큰 값을 가진 변수가 계산 결과를 지배하는 것을 피하기 위해 이러한 변환이 종종 필요합니다.
평균과 표준편차는 이상치의 영향을 많이 받으므로 위의 변환을 수정하는 경우가 많습니다. 첫째, 평균은 중앙값, 즉 중간 값으로 대체됩니다. 둘째, 표준 편차는 절대 표준 편차로 대체됩니다. 특히, r이 변수이면 r의 절대 표준 편차는 $\mathrm{\sigma_{A}=\displaystyle\sum\limits_{i=1}^m |X_{i}-\mu| }$ 여기서 xi i 번째 입니다. 변수 값, m은 개체 수, μ는 평균 또는 중앙값입니다.