데이터 축소란 무엇입니까?

<시간/>

데이터 마이닝은 대용량 데이터베이스에서 선택된 데이터에 적용됩니다. 방대한 양의 데이터에 대해 데이터 분석 및 마이닝을 수행하면 처리하는 데 매우 오랜 시간이 걸리므로 비실용적이고 실행 불가능합니다. 데이터 분석을 위한 처리 시간을 단축할 수 있으며, 데이터 축소 기술은 원본 데이터의 무결성을 유지함으로써 볼륨이 훨씬 작은 데이터 세트의 축소된 표현을 얻는 데 사용됩니다. 데이터를 줄임으로써 동일한 분석 결과를 생성하는 데이터 마이닝 프로세스의 효율성이 향상됩니다.

데이터 축소는 더 간결하게 정의하는 것을 목표로 합니다. 데이터 크기가 작을수록 복잡하고 계산적으로 고가의 알고리즘을 적용하는 것이 더 간단합니다. 데이터의 감소는 행 수(레코드) 또는 열 수(차원)로 표시될 수 있습니다.

다음과 같은 다양한 데이터 축소 전략이 있습니다. -

데이터 큐브 집계 - 이 방법에서는 데이터 큐브 구성에서 데이터에 집계 작업이 사용됩니다. 이 데이터에는 2002년부터 2004년까지의 분기별 모든 전자 제품 판매가 포함됩니다. 분기별 총계가 아니라 연간 판매(연간 총계)에 관심이 있습니다. 따라서 데이터를 집계하여 결과 데이터가 분기가 아닌 연간 총 매출을 요약하도록 할 수 있습니다. 결과 데이터 세트는 분석 작업에 필수적인 데이터 손실 없이 볼륨이 더 작습니다.

속성 하위 집합 선택 − 이 방법에서 관련성이 없거나 관련성이 약하거나 중복되는 속성이나 차원이 발견되고 삭제될 수 있는 경우. 분석을 위한 데이터 세트에는 수백 개의 속성이 포함될 수 있으며 그 중 일부는 마이닝 작업과 관련이 없거나 중복될 수 있습니다. 예를 들어, 작업이 판매 알림을 받았을 때 All Electronics에서 인기 있는 새 CD를 구입할 가능성이 있는지 여부에 대해 고객을 정렬하는 것이라면 다음과 같은 속성과 달리 고객의 전화번호와 같은 속성은 관련이 없을 가능성이 높습니다. 나이 또는 음악 취향.

차원 축소 − 인코딩 메커니즘은 데이터 세트 크기를 줄이는 데 사용됩니다. 차원 축소에서 데이터 인코딩 또는 변환은 원본 데이터의 축소 또는 "압축" 표현을 얻기 위해 적용됩니다. 압축된 데이터에서 정보 손실 없이 원본 데이터를 재구성할 수 있는 경우 데이터 축소를 무손실이라고 합니다.

수량 감소 − 데이터는 매개변수 모델(실제 데이터가 아닌 모델 매개변수만 저장하는 데 필요) 또는 클러스터링, 샘플링 및 히스토그램 사용을 포함한 비모수적 방법을 포함한 더 작은 대안의 데이터 표현으로 복원 또는 예측됩니다.

이산화 및 개념 계층 생성 - 속성에 대한 원시 데이터 값이 범위 또는 더 높은 개념 수준으로 대체되는 이 방법에서. 데이터 이산화는 개념 계층의 자동 생성에 매우 유용한 숫자 감소의 한 형태입니다. 이산화 및 개념 계층 생성은 다양한 추상화 수준에서 데이터 마이닝을 가능하게 한다는 점에서 데이터 마이닝을 위한 동적 도구입니다.