Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

연결 패턴에 대한 평가는 무엇입니까?

<시간/>

연관 분석 알고리즘은 엄청난 수의 패턴을 만들 가능성이 있습니다. 예를 들어, 데이터 세트에는 6개의 항목만 포함되지만 특정 지원 및 신뢰 임계값에서 최대 수천 개의 연관 규칙을 생성할 수 있습니다. 실제 화폐 데이터베이스의 크기와 차원이 클 수 있기 때문에 수천 또는 수백만 개의 패턴으로 쉽게 끝날 수 있으며 그 중 일부는 흥미롭지 않습니다.

한 사람의 쓰레기가 다른 사람의 보물이 될 수 있기 때문에 가장 흥미로운 것이 사소한 서비스가 아니라는 것을 패턴을 통해 분석하는 것입니다. 연관 패턴의 품질을 계산하기 위해 잘 받아들여진 일련의 방법을 만드는 것이 필수적입니다.

첫 번째 기준 세트는 통계적 인수를 통해 생성할 수 있습니다. 상호 분리된 항목 그룹을 포함하거나 여러 트랜잭션을 포함하는 패턴은 데이터에서 가짜 연관을 취할 수 있으므로 흥미롭지 않은 것으로 처리됩니다.

이러한 패턴은 데이터에서 파생된 통계를 사용하여 패턴이 흥미로운지 여부를 결정하는 객관적인 흥미도 부분을 사용하여 제거할 수 있습니다. 지지, 신뢰, 상관관계와 같은 객관적인 흥미도 측정의 예

두 번째 기준 세트는 주관적인 주장을 통해 만들 수 있습니다. 패턴은 데이터에 대한 예상치 못한 데이터를 인정하거나 수익성 있는 서비스로 이어질 수 있는 유익한 지식을 지원하지 않는 한 주관적으로 흥미롭지 않은 것으로 취급됩니다.

예를 들어 {Butter}→{Bread} 규칙은 높은 지지도와 신뢰도 값을 가지고 있더라도 규칙에 의해 정의된 관계가 다소 명확해 보일 수 있기 때문에 흥미롭지 않을 수 있습니다.

다른 용어로 {기저귀}}→{{맥주} 규칙은 관계가 예기치 않고 소매업체를 위한 새로운 교차 판매 이벤트를 조언할 수 있기 때문에 흥미롭습니다. 주관적인 지식을 패턴 계산에 통합하는 것은 도메인 전문가로부터 상당한 양의 이전 데이터가 필요하기 때문에 복잡한 작업입니다.

다음은 편향된 지식을 패턴 발견 작업에 통합하기 위한 몇 가지 접근 방식이며 다음과 같습니다. -

시각화 − 이 접근 방식은 루프에서 인간 사용자를 유지하기 위해 사용자 친화적인 환경이 필요했습니다. 또한 도메인 전문가가 발견된 패턴을 실행 및 테스트하여 데이터 마이닝 시스템과 연결할 수 있습니다.

템플릿 기반 접근 방식 − 이 접근 방식을 통해 사용자는 마이닝 알고리즘에 의해 복사되는 패턴 유형을 제한할 수 있습니다. 추출된 모든 규칙을 문서화하는 대신 사용자 지정 템플릿이 필요한 규칙만 사용자에게 복원됩니다.

주관적 흥미도 측정 − 개념 계층 또는 요소의 이득 한계를 포함한 도메인 데이터를 기반으로 주관적인 측정을 나타낼 수 있습니다. 이 측정값은 액세스 가능하고 실행 불가능한 패턴을 필터링하는 데 사용할 수 있습니다.