연속적인 속성이 엄청난 수의 가능한 값(무한)을 갖는 것으로 처리되는 동안 속성은 연관적으로 적은 수(유한)의 가능한 값을 갖는 경우 이산적입니다.
다시 말해, 이산 데이터 속성은 범위가 유한 그룹인 함수로 볼 수 있는 반면 연속 데이터 속성은 범위가 무한 완전 정렬된 그룹, 일반적으로 간격인 함수로 볼 수 있습니다.
이산화는 연속 속성을 여러 간격으로 분할하여 가능한 값의 수를 줄이는 것을 목표로 합니다. 이산화 문제에는 두 가지 방법이 있습니다. 하나는 소위 unsupervised discretization이라고 하는 훈련 클래스의 인스턴스 클래스에 대한 지식이 없는 상태에서 모든 속성을 양자화하는 것입니다.
두 번째는 지도 이산화를 이산화할 때 고려되는 클래스를 만드는 것입니다. 전자는 클래스를 알 수 없거나 존재하지 않는 클러스터링 문제를 처리할 때 유일한 가능성입니다.
숫자 속성을 이산화하는 확실한 방법은 해당 범위를 미리 정해진 수의 등간격으로 나누는 것입니다. 즉, 고정된 데이터 독립 척도입니다. 이는 일반적으로 정보가 수집되는 시점에 완료됩니다.
감독되지 않은 이산화 방법에서는 너무 무례한 그라데이션을 사용하거나 경계의 불리한 선택으로 여러 클래스의 여러 인스턴스를 불필요하게 뭉치는 그라데이션을 사용하여 학습 절차에 유익한 것으로 판명된 구별을 망칠 위험이 있습니다. .
동일 너비 비닝은 종종 인스턴스를 매우 불규칙하게 분산합니다. − 일부 빈에는 여러 인스턴스가 포함되지만 다른 빈에는 포함되지 않습니다. 이는 좋은 의사 결정 구조를 구축하는 데 도움이 되는 속성의 기능을 심각하게 손상시킬 수 있습니다. 간격을 여러 크기로 설정하고 비슷한 수의 훈련 예제가 각 간격에 포함되도록 선택하는 것이 좋습니다.
이 방법은 동일 빈도 비닝으로 알려져 있으며, 결과 빈의 텍스트에 대한 히스토그램을 취할 수 있다면 자주 히스토그램 균등화로 알려진 해당 축을 따라 인스턴스의 분포를 기반으로 속성의 범위를 미리 결정된 여러 빈으로 나눕니다. 평평한. 여러 bin을 리소스로 볼 수 있는 경우 이 방법이 가장 잘 활용됩니다.
등빈도 비닝은 인스턴스의 클래스에 명백하며, 이는 잘못된 경계를 생성할 수 있습니다. 예를 들어 bin의 일부 인스턴스에 하나의 클래스가 있고 다음 더 큰 bin의 일부 인스턴스에 초기 클래스가 있는 첫 번째 인스턴스를 제외하고 다른 인스턴스가 있는 경우 클래스 구분을 존중하고 해당 첫 번째 인스턴스를 이전 빈, 균질성을 위해 동일한 주파수 속성을 희생합니다.