빈번한 항목 집합을 생성하는 방법은 무엇입니까?

<시간/>

Apriori는 빈번한 항목 집합 생성의 조합 버스트를 강력하게 해결한 알고리즘입니다. 지수 검색 영역을 줄이기 위해 Apriori 원리를 사용하여 이를 구현합니다. 중요한 성능 향상에도 불구하고 이 알고리즘은 트랜잭션 레코드 집합에 대해 다양한 전달을 수행해야 하기 때문에 상당한 I/O 오버헤드를 얻습니다.

Apriori 알고리즘의 동작은 트랜잭션의 폭이 향상되기 때문에 밀도가 높은 데이터 세트에 대해 본질적으로 저하될 수 있습니다. 이러한 단점을 극복하고 Apriori 알고리즘의 효율성을 향상시키기 위해 여러 가지 방법이 만들어졌습니다.

다음은 다음과 같은 이러한 방법에 대한 고급 설명입니다. -

항목 집합 격자의 순회 − 빈번한 항목 집합에 대한 검색은 항목 집합 격자에 대한 탐색으로 간주될 수 있습니다. 알고리즘 방법에 의한 검색 방법은 빈번한 항목 집합 생성 단계에서 격자 아키텍처를 탐색하는 방법입니다. 일부 검색 방법은 격자에서 빈번한 항목 집합의 구성에 따라 다른 방법보다 우수합니다.

일반 대 특정 대 일반 대 − Apriori 알고리즘은 후보 k-항목 집합을 얻기 위해 빈번한 (k-l)-항목 집합의 쌍이 결합되는 일반 대 특정 검색 접근 방식이 필요합니다. 이 일반-특정 검색 방법은 효율적이며 지원되는 빈발 항목 집합의 최대 길이가 너무 길지 않습니다.

특정-일반 검색 방법은 보다 일반적인 빈도 항목 집합을 발견하기 전에 더 명확한 빈도 항목 집합을 먼저 봅니다. 이 방법은 빈발 항목 집합 경계가 격자의 맨 아래 근처에 위치하는 밀집 트랜잭션에서 최대 빈도 항목 집합을 찾는 데 유용합니다.

Apriori 원리는 최대 빈도 항목 집합의 일부 하위 집합을 잘라내는 데 사용할 수 있습니다. 특히, 후보 k-itemset이 최대 빈도인 경우 크기 k-1의 부분 집합을 결정할 필요가 없습니다. 그러나 후보 k-itemset이 빈도가 낮으면 k-1 부분 집합 전체를 확인해야 합니다. 다음 반복에서.

또 다른 방법은 일반 검색 방법과 특정 검색 방법을 모두 연결하는 것입니다. 이 양방향 접근 방식은 후보 항목 집합을 저장하기 위해 더 많은 공간이 필요했지만 빈번한 항목 집합 경계를 신속하게 식별하는 것을 지원할 수 있습니다.

동등 클래스 − 순회를 구상하는 또 다른 방법은 먼저 격자를 분리된 노드 팀(또는 동일한 클래스)으로 분할하는 것입니다. 빈번한 항목 집합 생성 알고리즘은 다른 등가 클래스로 변경하기 전에 먼저 특정 등가 클래스 내에서 빈번한 항목 집합을 검색합니다.

Apriori에서 사용된 수준별 방법인 알고리즘은 항목 집합 크기 지원에 따라 격자를 분할하는 것으로 처리될 수 있습니다. 즉, 알고리즘은 더 큰 크기의 항목 집합으로 작업하기 전에 먼저 빈번한 1-항목 집합을 찾습니다. 등가 클래스는 항목 집합의 접두사 또는 접미사 레이블에 따라 나타낼 수도 있습니다.