Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

트랜잭션 데이터베이스의 마이닝 다단계 연결 규칙은 무엇입니까?

<시간/>

다단계 연관 규칙 마이닝에 대한 접근 방식은 supportConfidence 프레임워크를 기반으로 합니다. 하향식 전략은 개념 수준 1에서 시작하여 Apriori 알고리즘을 사용하여 더 빈번한 항목 집합을 찾을 수 있을 때까지 더 낮은 특정 개념 수준으로 작업하면서 각 개념 수준에서 빈번한 항목 집합의 계산을 위해 개수를 누적하는 방식으로 사용됩니다.

데이터 내의 하위 수준 개념을 상위 수준 개념 또는 개념 계층 구조의 조상으로 대체하여 데이터를 일반화할 수 있습니다. 개념 계층에서 루트가 D인 트리, 즉 작업 관련 데이터로 표현됩니다.

다단계 연결의 인기 있는 응용 분야는 개념 계층의 개념으로 표시되는 자주 함께 구매되는 품목 세트를 검색하여 고객의 구매 습관을 연구하는 장바구니 분석입니다.

각 노드는 검사된 항목 또는 항목 세트를 나타냅니다. 모든 추상화 수준에서 빈번한 항목 집합을 찾는 다양한 접근 방식이 있습니다. 사용 중인 방법 중 일부는 '모든 수준에 대해 균일한 최소 지원 사용', 수준별로 독립적인 낮은 수준에서 축소된 최소 지원을 사용하는 것입니다.

다단계 데이터베이스에는 초기 트랜잭션 테이블이 아닌 계층 구조 데이터로 인코딩된 트랜잭션 테이블이 필요합니다. 이것은 모든 항목이 아닌 음식과 같은 트랜잭션 데이터베이스의 일부에만 관심이 있을 때 유용합니다. 이런 식으로 먼저 관련 데이터 집합을 수집한 다음 작업 관련 집합에 대해 반복적으로 작업할 수 있습니다. 따라서 트랜잭션 테이블에서 각 항목은 일련의 숫자로 인코딩됩니다.

모든 수준에 대해 균일한 최소 지원 사용 − 균일한 최소 지원 임계값을 사용하면 검색 절차가 간소화됩니다. 조상이 자손의 상위 집합이라는 지식을 기반으로 최적화 기술을 채택할 수 있으며, 탐색은 조상이 최소 지원을 갖지 않는 항목을 포함하는 항목 집합을 검사하지 않습니다.

균일 지원 접근 방식의 주요 단점은 추상화 수준이 낮은 항목이 추상화 수준이 높은 항목만큼 자주 발생한다는 것입니다.

낮은 수준에서 축소된 최소 지원 사용 − 각 추상화 수준에는 최소 지원 임계값이 있습니다. 추상화 수준이 낮을수록 등가 임계값이 작아집니다. 지원이 감소된 다중 레벨 연관 마이닝에 대한 다음 검색 범주는 -

  • 레벨별 독립 − 전체 검색이며, 가지치기에 자주 사용되는 항목 집합에 대한 배경 지식이 사용됩니다. 여기서 각 노드는 상위 노드에 관계없이 자주 검사되는 것으로 밝혀졌습니다.

  • 단일 항목별 레벨 교차 필터링 − (i-1) 수준의 부모 노드가 빈번한 경우에만 i번째 수준의 항목이 결정됩니다.

  • k-itemset별 레벨 교차 필터링 − i-1 번째 수준의 동등한 부모 A-항목 집합이 빈번한 경우에만 i번째 수준의 항목 집합이 결정됩니다.