Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

네거티브 패턴을 마이닝하는 기술은 무엇입니까?

<시간/>

드문 패턴을 마이닝하기 위해 생성된 기술의 첫 번째 클래스는 각 항목을 대칭 이진 변수로 간주합니다. 거래 정보는 음수 항목을 추가하여 이진화할 수 있습니다. 초기 데이터를 양수 항목과 음수 항목이 모두 있는 트랜잭션으로 변경한 경우를 표시합니다. 증강 거래에 대한 Apriori를 포함한 현재의 빈번한 항목 집합 생성 알고리즘을 사용하여 일부 음수 항목 집합을 유도할 수 있습니다.

이러한 접근 방식은 여러 변수가 대칭 이진법으로 간주되는 경우에만 가능합니다(즉, 소수의 항목에 대한 부정만 포함하는 음수 패턴으로 간주됨). 각 항목을 대칭 이진법으로 간주해야 하는 경우 다음과 같은 이유로 문제가 계산적으로 어려워집니다.

여러 항목은 각 항목에 해당하는 음수 항목이 추가되면 두 배가 됩니다. 크기가 2 d 인 항목 집합 격자를 탐색하는 대신 , 여기서 d는 초기 데이터 세트의 항목 수, 격자가 높아집니다.

지원 기반 가지치기는 부정적인 항목이 증가할 때 더 이상 효율적이지 않습니다. 모든 변수 x에 대해 x 또는 x ' 50% 이상을 제공했습니다. 따라서 지원 임계값이 50%로 크더라도 항목의 절반이 자주 발생합니다.

더 낮은 임계값의 경우 여러 항목과 이를 포함하는 항목 집합이 자주 사용됩니다. Apriori가 사용하는 지원 기반 가지치기 방법은 대부분의 항목 집합에 대한 지원이 낮은 경우에만 효율적입니다. 따라서 다양한 빈도 항목 집합이 기하급수적으로 증가합니다.

음수 항목이 증가하면 각 트랜잭션의 너비가 향상됩니다. 초기 데이터 세트에서 사용할 수 있는 d개의 항목이 있다고 가정합니다. 장바구니 거래를 포함한 희소 데이터 세트의 경우 각 거래의 너비가 d보다 훨씬 작게 영향을 미칩니다.

따라서 최대 트랜잭션 너비에 의해 제한되는 빈번한 항목 집합의 최대 크기는 wmax입니다. , 연관적으로 작은 영향을 미칩니다. 음수 항목이 포함된 경우 항목이 트랜잭션에 있거나 트랜잭션에 없지만 둘 다 아닌 것은 아니기 때문에 트랜잭션 너비가 d로 증가합니다.

최대 트랜잭션 너비가 wmax에서 증가했기 때문에 d까지, 이것은 여러 빈번한 항목 집합의 수가 빠르게 변경되도록 증가할 것입니다. 따라서 일부 현재 알고리즘은 긴 데이터 세트에 익숙해지면 고장나는 경향이 있습니다.

이전의 무차별 대입 방식은 엄청난 수의 긍정적 및 부정적 패턴에 대한 지원을 결정해야 하기 때문에 계산 비용이 많이 듭니다. 부정적인 항목으로 데이터 세트를 보강하는 대신, 또 다른 접근 방식은 상관하는 긍정적인 항목의 지원에 따라 부정적인 항목 세트의 지원을 결정하는 것입니다.