Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

닫힌 빈번한 항목 집합을 어떻게 마이닝할 수 있습니까?

<시간/>

순진한 접근 방식에서는 빈도 항목 집합의 전체 집합을 마이닝한 다음 적절한 하위 집합인 각 빈도 항목 집합을 제거하고 현재 빈도 항목 집합과 유사한 지원을 제공할 수 있습니다.

이 방법은 2 100 을 도출할 수 있습니다. −1개의 빈도 항목 집합을 사용하여 길이 100개의 빈도 항목 집합을 얻습니다. 모두 중복 항목 집합을 제거하기 시작하기 전에입니다. 권장되는 기술은 마이닝 단계에서 정확하게 닫힌 자주 항목 집합을 검색하는 것입니다. 이를 위해 마이닝 중에 닫힌 항목 집합의 방법을 식별할 수 있는 즉시 검색 영역을 정리해야 했습니다. 다음과 같은 다양한 가지치기 전략이 있습니다 -

항목 병합 − 빈번한 항목 집합 X를 포함하는 각 거래가 항목 집합 Y도 포함하지만 Y의 적절한 상위 집합이 아닌 경우 X ∪Y는 자주 닫히는 항목 집합을 형성하고 X는 포함하지만 Y는 포함하지 않는 일부 항목 집합을 검색할 필요가 없습니다.

하위 항목 집합 정리 - 빈발 항목 집합 X가 이전에 발견된 자주 닫히는 항목 집합 Y의 적절한 부분집합이고 support_count(X) =support_count(Y)인 경우 집합 열거 트리에서 X와 X의 모든 자손은 자주 닫히는 항목 집합이 될 수 없으므로 다음이 될 수 있습니다. 가지치기.

항목 건너뛰기 − 닫힌 항목 집합의 깊이 우선 마이닝에서는 모든 수준에서 헤더 테이블 및 예상 데이터베이스와 관련된 접두어 항목 집합 X가 있을 수 있습니다. 로컬 빈번한 항목 p가 여러 수준의 여러 헤더 테이블에서 유사한 지원을 제공하는 경우 더 큰 수준의 헤더 테이블에서 p를 안전하게 제거할 수 있습니다.

새로운 빈번한 항목 집합이 변경되면 다음과 같은 두 가지 유형의 클로저 검사를 구현하는 것이 필수적입니다. -

  • 수퍼셋 검사 − 이 새로운 빈번한 항목 집합이 유사한 지원으로 이전에 발견된 일부 닫힌 항목 집합의 상위 집합인지 테스트할 수 있습니다.

  • 하위 집합 확인 − 새로 발견된 항목 집합이 유사한 지원을 가진 이전에 발견된 닫힌 항목 집합의 하위 집합인지 여부를 테스트할 수 있습니다.

그것은 분할 정복 구조에서 가지 치기 기술을 병합하는 항목을 채택 할 수 있으며 상위 집합 테스트는 실제로 내장되어 있으며 명시 적으로 상위 집합 검사를 구현할 필요가 없습니다. 이는 빈번한 항목 집합 X∪Y가 항목 집합 X보다 늦게 발견되고 X와 유사한 지원을 제공하는 경우 X의 예상 데이터베이스에 있어야 하고 항목 집합 병합 중에 생성되어야 하기 때문입니다.

하위 집합 검사에 도움이 될 수 있으며, 채굴된 닫힌 항목 집합 집합을 지원하기 위해 압축된 패턴 트리를 구성할 수 있습니다. 패턴 트리는 발견된 모든 닫힌 항목 집합이 해당 트리 분기에 명시적으로 저장된다는 점을 제외하고는 FP 트리와 메커니즘이 동일합니다.