숫자 데이터에 대한 이산화 및 개념 계층 생성 기술은 무엇입니까?

<시간/>

적용 가능한 데이터 범위가 광범위하고 데이터 값이 자주 업데이트되기 때문에 수치 속성에 대한 개념 계층을 정의하는 것은 복잡하고 힘든 일입니다. 숫자 데이터에 대한 개념 계층 생성의 다양한 방법은 다음과 같습니다 -

비닝 − Binning은 정의된 수의 Bin을 기반으로 하는 하향식 분할 기술입니다. 이러한 방법은 숫자 감소 및 개념 계층 생성을 위한 이산화 방법으로도 사용됩니다. 이러한 기술은 결과 파티션에 재귀적으로 사용되어 개념 계층을 만들 수 있습니다. Binning은 클래스 데이터를 사용하지 않으므로 감독되지 않은 이산화 기술입니다. 사용자가 지정한 빈 수와 이상값의 존재에 민감합니다.

히스토그램 분석 − 히스토그램 분석은 비닝과 마찬가지로 클래스 데이터를 사용하지 않기 때문에 비지도 이산화 기법입니다. 히스토그램은 속성 A의 값을 버킷이라고 하는 분리된 범위로 분할합니다. 예를 들어, 동일한 너비 히스토그램에서 값은 가격에 대해 동일한 크기의 파티션 또는 범위로 분할되며 각 버킷의 너비는 $10입니다. 동일한 빈도 히스토그램을 사용하면 값이 분할되어 각 분할에 동일한 수의 데이터 튜플이 포함됩니다.

히스토그램 분석 알고리즘을 각 파티션에 재귀적으로 적용하여 미리 지정된 개념 수준 수에 도달하면 절차가 종료되는 다단계 개념 계층을 자동으로 생성할 수 있습니다.

레벨당 최소 간격 크기를 사용하여 재귀 프로시저를 제어할 수도 있습니다. 파티션의 최소 너비 또는 각 수준에서 각 파티션의 최소 값 수를 지정합니다.

엔트로피 기반 이산화 − 엔트로피는 일반적으로 이산화 측정에 사용됩니다. Claude Shannon이 정보 이론 및 정보 획득 개념에 대한 선구적인 작업에서 처음 소개했습니다.

엔트로피 기반 이산화는 감독된 하향식 분할 기술입니다. 분할점(속성 범위를 분할하기 위한 데이터 값)의 계산 및 결정에서 클래스 분포 데이터를 탐색합니다.

클러스터 분석 − 클러스터 분석은 널리 사용되는 데이터 이산화 방법입니다. 클러스터링 알고리즘은 A 값을 클러스터 또는 그룹으로 분할하여 숫자 속성 A를 이산화하는 데 적용할 수 있습니다.

클러스터링은 A의 분포와 데이터 포인트의 근접성을 고려하므로 고품질 이산화 결과를 생성할 수 있습니다. 클러스터링은 하향식 분할 전략 또는 각 클러스터가 개념 계층 구조의 노드를 형성하는 상향식 병합 전략에 따라 A에 대한 개념 계층 구조를 생성하는 데 사용할 수 있습니다.