데이터 마이닝에서 지원 및 신뢰를 사용하는 이유는 무엇입니까?

<시간/>

지지도가 매우 낮은 규칙이 우연히 나타날 수 있기 때문에 지지도는 실질적인 척도입니다. 낮은 지원 규칙은 사용자가 거의 함께 구매하지 않는 항목을 강화하는 데 수익성이 없기 때문에 비즈니스 관점에서도 지루할 수 있습니다.

연관 규칙은 X→Y 형식의 함축적 설명입니다. 여기서 X와 Y는 분리된 항목 집합, 즉 $\mathrm{X\cap\:Y=\phi}$입니다. 연관 규칙의 지속성은 지원 및 신뢰 측면에서 계산할 수 있습니다. 지원은 주어진 데이터 세트에 액세스할 수 있는 규칙을 제공하는 방법을 결정하는 반면 신뢰도는 X를 포함하는 트랜잭션에서 Y의 항목이 발생하는 빈도를 결정합니다.

신뢰도는 규칙에 의해 생성된 추론의 정확성을 측정합니다. 주어진 규칙 형식 X→Y에 대해 신뢰가 클수록 X를 포함하는 트랜잭션에 Y가 존재하는 것이 더 허용 가능합니다. 신뢰는 또한 X가 주어진 Y의 조건부 확률 추정을 지원합니다.

연관 분석 결과는 주의해서 실행해야 합니다. 연관 규칙에 의해 생성된 추론은 본질적으로 인과 관계를 의미하지 않습니다. 오히려 그것은 규칙의 선행과 결과에 있는 요소들 사이에 강력한 공동 출현 관계를 암시합니다. 인과 관계는 정보의 인과 관계 및 결과 속성에 대한 지식이 필요했으며 일반적으로 시간이 지남에 따라 나타나는 관계를 포함합니다.

연관 규칙 마이닝 문제는 다음과 같이 기술될 수 있습니다. -

연결 규칙 검색 − 트랜잭션 집합 T가 주어지면 지원 ≥ minsup 및 신뢰 ≥ minconf 를 갖는 몇 가지 규칙을 찾으십시오. 여기서 minsup 및 minconf는 동등한 지원 및 신뢰 임계값입니다.

마이닝 연관 규칙에 대한 무차별 대입 방법은 적용 가능한 각 규칙에 대한 지지도와 신뢰도를 계산하는 것입니다. 이 방법은 데이터 세트에서 복사할 수 있는 여러 규칙이 기하급수적으로 많기 때문에 매우 비쌉니다.

연관 규칙 마이닝 알고리즘의 구현을 향상시키기 위한 원래 단계는 지원 및 신뢰 요구 사항을 분리하는 것입니다. 항목 집합이 홀수이면 신뢰 값을 계산할 필요 없이 6개의 모든 후보 규칙을 직접 제거할 수 있습니다.

따라서 여러 연관 규칙 마이닝 알고리즘에 의한 해외 공통 전략은 문제를 두 가지 주요 하위 작업으로 분해하는 것입니다.

자주 항목 집합 생성 − 목표는 임계값이 필요한 일부 항목 집합을 찾는 것입니다. 이러한 항목 집합을 빈번한 항목 집합이라고 합니다.

규칙 생성 − 목표는 이전 단계에서 발견된 빈번한 항목 집합에서 몇 가지 높은 신뢰도의 규칙을 추출하는 것입니다. 이러한 규칙을 강력한 규칙이라고 합니다. 빈번한 항목 집합 생성을 위한 계산 요구 사항은 종종 규칙 생성의 요구 사항보다 비용이 많이 듭니다.