지원 카운팅은 apriori-gen 함수의 후보 가지치기 단계에서 살아남은 각 후보 항목 집합에 대한 출현 빈도를 결정하는 절차입니다.
이를 수행하는 한 가지 방법은 각 후보 항목 집합에 대해 각 트랜잭션을 비교하고 트랜잭션에 포함된 후보의 지원 수를 새로 고치는 것입니다. 이 방법은 특히 여러 트랜잭션과 후보 항목 집합이 높을 때 계산 비용이 많이 듭니다.
두 번째 접근 방식은 각 트랜잭션에 포함된 항목 집합을 열거하고 특정 후보 항목 집합의 지원 수를 새로 고쳐야 하는 것입니다. 5개의 항목 {I, 2, 3, 5, 6}을 포함하는 트랜잭션 t를 고려하십시오. (5 3) =이 거래에 포함된 크기 3의 10개 항목 세트가 있습니다.
다양한 항목 집합이 분석 중인 후보 3개 항목 집합에 해당할 수 있으며, 이 경우 지원 개수가 증가합니다. 무시할 수 있는 일부 후보에 해당하지 않는 t의 다른 하위 집합이 있습니다.
t에 포함된 3가지 항목 집합을 열거하기 위한 체계적인 접근 방식. 각 항목집합은 사전순서 개선을 위해 항목을 유지하고 있다는 점을 고려하여 가장 작은 항목을 먼저 정의한 다음 상위 항목을 정의하여 항목집합을 열거할 수 있습니다.
예를 들어, t :{1, 2, 3, 5, 6}이 주어지면 t에 포함된 모든 3개 항목 집합은 항목 1, 2 또는 3으로 시작해야 합니다. t에 레이블이 5보다 높거나 같은 두 개의 항목이 있기 때문에 항목 5 또는 6이 있습니다.
접두사 아키텍처는 트랜잭션에 포함된 항목 집합이 가장 왼쪽 항목에서 가장 오른쪽 항목으로 항목을 하나씩 정의하여 일관되게 열거할 수 있는 방법을 보여줍니다.
열거된 각 3개 항목 집합이 기존 후보 항목 집합과 상관 관계가 있는지 여부를 결정할 수 있습니다. 후보 중 하나를 연결하면 해당 후보의 지원 횟수가 증가합니다.
Apriori 알고리즘에서는 후보 항목 집합을 여러 버킷으로 나누어 해시 트리에 저장합니다. 지원 계산 중에 각 트랜잭션에 포함된 항목 집합도 적절한 버킷으로 해시됩니다. 트랜잭션의 각 항목 집합을 각 후보 항목 집합과 비교하지 않고 유사한 버킷에 속하는 후보 항목 집합에 대해서만 연결됩니다.
트리의 각 내부 노드에는 다음 해시 함수 h(p):p mod 3이 필요하여 현재 노드에서 다음에 따라야 하는 분기를 결정합니다. 예를 들어, 항목 1, 4, 7은 숫자를 3으로 나눈 나머지가 유사하기 때문에 동일한 분기(즉, 맨 왼쪽 분기)로 해시됩니다. 모든 후보 항목 집합은 해시 트리의 리프 노드에 저장됩니다.