차원 축소에서 데이터 인코딩 또는 변환은 원본 데이터의 축소 또는 "압축" 표현을 얻기 위해 적용됩니다. 압축된 데이터에서 정보의 오류 없이 원본 데이터를 재구성할 수 있는 경우 데이터 축소를 무손실이라고 합니다. 재구성된 데이터가 원본 데이터의 근사치인 경우 데이터 축소를 손실이라고 합니다.
손실 감소에는 다음과 같은 두 가지 방법이 있습니다. -
-
웨이블릿 변환 − 이산 웨이블릿 변환(DWT)은 데이터 벡터 X에 적용될 때 웨이블릿 계수의 수치적으로 다른 벡터 X'로 변환하는 선형 신호 처리 기술입니다. 두 벡터의 길이는 비슷합니다. 이 기술을 데이터 축소에 사용할 때 각 튜플을 n차원 데이터 벡터로 간주할 수 있습니다. 즉, 𝑋=(x1 ,x2 ,…xn ) n 데이터베이스 속성에서 튜플에 대해 수행된 n 측정을 나타냅니다.
DWT는 사인과 코사인을 포함하는 신호 처리 기술인 이산 푸리에 변환(DFT)과 거의 관련이 있습니다. 일반적으로 DWT는 더 나은 손실 압축을 달성합니다. 즉, 주어진 데이터 벡터의 DWT 및 DFT에 대해 동일한 수의 계수가 유지되는 경우 DWT 버전은 원본 데이터에 대한 보다 정확한 근사치를 제공합니다. 따라서 등가 근사의 경우 DWT는 DFT보다 적은 공간을 필요로 합니다.
웨이블릿 변환은 데이터 큐브를 포함한 다차원 데이터에 사용할 수 있습니다. 이것은 먼저 변환을 첫 번째 차원에 적용한 다음 두 번째 차원에 적용하는 방식으로 수행됩니다. 관련된 계산 복잡성은 큐브의 셀 수에 대해 선형입니다.
웨이블릿 변환은 희소 또는 편향된 데이터와 정렬된 속성이 있는 데이터에 대해 좋은 결과를 제공합니다. 웨이블릿에 의한 손실 압축은 현재 상용 표준인 JPEG 압축보다 더 나은 것으로 알려져 있습니다. Wavelet 변환에는 지문 이미지 압축, 컴퓨터 비전, 시계열 데이터 분석 및 데이터 정리를 포함하여 많은 실제 응용 프로그램이 있습니다.
-
주요 구성 요소 분석 − 주성분 분석은 Karhunen-Loeve 또는 K-L 방법이라고도 합니다. 데이터를 나타내는 데 가장 잘 사용할 수 있는 k n차원 직교 벡터를 검색할 수 있습니다. 여기서 k ≤ n입니다. 원본 데이터는 훨씬 더 작은 공간에 투영되어 차원이 축소됩니다. 대안으로 더 작은 변수 집합을 만들어 속성의 본질을 결합합니다. 원본 데이터를 이 작은 세트에 투영할 수 있습니다.