데이터 이산화란 무엇입니까?

<시간/>

데이터 이산화 기술은 속성의 범위를 간격으로 나누어 주어진 연속 속성에 대한 값의 수를 줄이는 데 사용할 수 있습니다. 간격 레이블을 사용하여 실제 데이터 값을 복원할 수 있습니다. 적은 수의 간격 레이블로 연속 속성의 여러 값을 복원할 수 있으므로 원본 정보를 줄이고 단순화합니다.

이것은 마이닝 결과의 간결하고 사용하기 쉬운 지식 수준 표현으로 이어집니다. 이산화 기술은 클래스 데이터를 사용하는지 여부 또는 진행 방향(즉, 하향식 대 상향식)과 같이 이산화가 구현되는 방식에 따라 분류될 수 있습니다. 이산화 프로세스가 클래스 데이터를 사용하는 경우 감독 이산화라고 말할 수 있습니다. 따라서 감독되지 않습니다.

프로세스가 전체 속성 범위를 분할하기 위해 먼저 하나 또는 몇 개의 포인트(분할 포인트 또는 절단 포인트로 알려짐)를 발견하는 것으로 시작한 다음 결과 간격에서 이를 재귀적으로 계속하는 경우 하향식 이산화 또는 분할로 알려져 있습니다.

상향식 이산화 또는 병합에서는 모든 연속 값을 잠재적인 분할점으로 간주하여 시작하고 이웃 값을 병합하여 간격을 형성하여 일부를 제거한 다음 이 프로세스를 결과 간격에 재귀적으로 적용할 수 있습니다. 이산화는 개념 계층이라고 하는 속성 값의 계층적 또는 다중 해상도 분할을 지원하기 위해 속성에 대해 재귀적으로 구현될 수 있습니다.

개념 계층은 여러 추상화 수준에서 마이닝하는 데 유용합니다. 주어진 숫자 속성에 대한 개념 계층은 속성의 이산화를 나타냅니다. 개념 계층을 사용하면 낮은 수준의 개념(연령 속성에 대한 숫자 값 포함)을 수집하고 높은 수준의 개념(청소년, 중년 또는 노인 포함)으로 복원하여 데이터를 줄일 수 있습니다. 이러한 데이터 일반화에는 세부 사항이 숨겨져 있지만 일반화 된 데이터는 더 의미 있고 실행하기 쉽습니다.

이는 공통 요구 사항인 여러 마이닝 작업 간의 데이터 마이닝 결과에 대한 일관된 설명을 제공합니다. 또한 축소된 데이터 세트에 대한 마이닝은 더 적은 입력/출력 작업을 필요로 하며 더 높은 일반화되지 않은 데이터 세트에 대한 마이닝보다 능력이 뛰어납니다. 이러한 장점으로 인해 이산화 기술과 개념 계층은 일반적으로 데이터 마이닝 이전에 마이닝이 아니라 전처리 단계로 사용됩니다.

여러 이산화 방법을 사용하여 숫자 속성에 대한 개념 계층을 자동으로 생성하거나 동적으로 개선할 수 있습니다. 또한 범주 속성에 대한 많은 계층 구조는 데이터베이스 디자인 내부에 암시적이며 스키마 정의 수준에서 자동으로 표시될 수 있습니다.