지원 기대치를 기반으로 하는 기술은 무엇입니까?

<시간/>

(개념 계층 구조와 간접 연관이라고 하는 이웃 기반 접근 방식을 사용하여 패턴의 예상 지원을 결정하는 두 가지 접근 방식이 있습니다.

개념 계층에 기반한 지원 기대

객관적인 측정만으로는 흥미롭지 않은 드문 패턴을 제거하기에 충분하지 않습니다. 예를 들어, 빵과 노트북 컴퓨터를 자주 사용하는 품목을 고려하십시오. {bread, Iaptop 컴퓨터} 항목 집합이 드물고 음의 상관 관계가 있을 수 있지만 도메인 전문가에게는 지원 부족이 분명해 보이기 때문에 매력적이지 않습니다. 따라서 이러한 드문 패턴이 생성되는 것을 방지하기 위해 예상 지원을 결정하는 주관적인 접근 방식이 필요합니다.

간접 연관 기반 지원 기대

고객이 예외적으로 구매하는 한 쌍의 품목 (a, b)를 고려하십시오. 빵, DVO 플레이어 등 관련성이 없는 항목이라면 지지도가 낮을 것으로 예상된다. 즉, b와 관련된 항목이면 지지도가 높을 것입니다. 예상 지원은 개념 계층을 사용하여 더 일찍 계산되었습니다. 이것은 일반적으로 이 두 항목과 함께 구매하는 다른 항목을 보고 항목 쌍 사이의 예상 지원을 결정하는 접근 방식을 보여줍니다.

예를 들어, 침낭을 구매하는 고객은 다른 캠핑 용품 구매에도 영향을 받는 반면 데스크탑 컴퓨터를 구매하는 고객은 광마우스나 프린터를 포함한 다른 컴퓨터 액세서리 구매에도 영향을 받는다고 가정해 보겠습니다. 침낭과 데스크톱 컴퓨터와 함께 자주 구매하는 다른 품목이 없다는 점을 고려할 때 이러한 관련 없는 품목에 대한 지원은 낮습니다.

즉, 다이어트 및 일반 소다를 칩 및 쿠키와 함께 구입한다고 생각하십시오. 개념 계층을 활용하지 않더라도 두 항목은 적당히 관련이 있을 것으로 예상되며 지지도가 높아야 합니다. 그들의 실제 지원이 낮기 때문에 다이어트와 일반 탄산음료는 인상적인 드문 패턴을 형성합니다. 이러한 패턴을 간접 연관 패턴이라고 합니다.

간접 연관은 장바구니 도메인과 같은 여러 응용 프로그램이 있으며 b는 데스크탑 및 랩톱 컴퓨터를 포함한 경쟁 품목을 정의할 수 있습니다. 텍스트 마이닝에서 간접 연관을 사용하여 여러 컨텍스트에서 사용되는 동의어, 반의어 또는 단어를 인식할 수 있습니다. 예를 들어, 파일 세트가 주어지면 데이터라는 단어는 중재자 마이닝을 통해 간접적으로 금과 관련될 수 있습니다.