속성 일반화의 규칙은 무엇입니까?

<시간/>

속성 일반화는 다음 규칙에 따라 달라집니다. 원래 작업 관계에 속성에 대한 고유한 값의 거대한 컬렉션이 있고 속성에 일반화 연산자 그룹이 있는 경우 일반화 연산자를 선택하여 속성에 활용해야 합니다. .

이 규칙은 다음 추론에 따라 다릅니다. 작업 관계에서 튜플 또는 규칙 내부의 속성 값을 일반화하기 위해 일반화 서비스를 사용하면 더 많은 초기 데이터 튜플을 포함하는 규칙이 생성되어 정의된 개념을 일반화합니다. 이는 인스턴스의 지식에서 일반화 트리를 오르거나 개념 트리 상승으로 정의된 일반화 규칙에 해당합니다.

포함된 속성 또는 응용 프로그램을 기반으로 하며 사용자는 일부 속성을 선호하여 적당히 낮은 추상화 방법을 유지하는 반면 다른 속성은 더 높은 방법으로 일반화할 수 있습니다. 속성을 얼마나 높게 일반화해야 하는지에 대한 제어는 일반적으로 주관적입니다. 이 단계의 제어를 속성 일반화 제어라고 합니다.

속성이 "너무 높음"으로 일반화되면 과도한 일반화로 이어질 수 있으며 결과 규칙은 매우 설명적일 수 없습니다. 다시 말해서, 속성이 "적절하게 높은 수준"으로 일반화되지 않으면 얻은 규칙이 정보를 제공할 수 없는 일반화가 발생할 수 있습니다. 따라서 속성지향 일반화에서는 균형을 잡아야 한다.

다음과 같이 일반화 프로세스를 제어하는 많은 가능한 방법이 있습니다 -

속성 일반화 임계값 제어 - 속성 일반화 임계값 제어로 알려진 첫 번째 기술은 일부 속성에 대해 하나의 일반화 임계값을 설정하거나 모든 속성에 대해 하나의 임계값을 설정합니다. 속성의 여러 고유 값이 속성 임계값보다 높으면 속성 제거 또는 속성 일반화가 구현되어야 합니다.

데이터 마이닝 시스템에는 일반적으로 2에서 8 사이의 기본 속성 임계값이 있으며 전문가와 사용자도 임계값을 변경할 수 있어야 합니다. 일반화가 특정 속성에 대해 너무 큰 수준에 도달한다는 것을 사용자가 이해하면 임계값을 개선할 수 있습니다.

일반화된 관계 임계값 제어 - 일반화된 관계 임계값 제어로 알려진 두 번째 기술은 일반화된 관계에 대한 임계값을 결정했습니다. 일반화된 관계의 다중(고유) 튜플이 임계값보다 높으면 일반화를 구현해야 합니다.

따라서 더 이상의 일반화를 구현해서는 안 됩니다. 이러한 임계값은 데이터 마이닝 시스템에서 사전 설정(일반적으로 10~30 범위 내)하거나 전문가 또는 사용자가 설정할 수 있으며 조정 가능해야 합니다. 예를 들어 일반화된 관계가 너무 작다는 것을 사용자가 이해하면 임계값을 높일 수 있으며 이는 드릴다운을 의미합니다.