Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

순차 패턴 마이닝이란 무엇입니까?

<시간/>

순차 패턴 마이닝은 자주 나타나는 시리즈 이벤트 또는 하위 시퀀스를 패턴으로 마이닝하는 것입니다. Canon 디지털 카메라를 구입한 사용자가 한 달 이내에 HP 컬러 프린터를 구입하는 순차 패턴의 예입니다.

소매 정보의 경우 순차 패턴은 선반 배치 및 판촉에 유용합니다. 이 산업, 통신 및 다양한 비즈니스에서도 대상 마케팅, 사용자 유지 및 여러 작업에 순차적 패턴을 사용할 수 있습니다.

웹 접속 패턴 분석, 날씨 예측, 생산 공정, 웹 침입 탐지 등 순차적 패턴을 사용할 수 있는 여러 영역이 있습니다.

각 시퀀스가 ​​이벤트(또는 요소) 파일을 포함하고 각 이벤트가 항목 그룹을 포함하는 시퀀스 세트가 주어지고 사용자 지정 최소 제공 임계값 min sup가 주어지면 순차 패턴 마이닝은 모든 빈번한 하위 시퀀스를 발견합니다. 즉, 시퀀스 그룹에서 발생 빈도가 min_sup 이상인 하위 시퀀스.

I ={I1 , 나2 ,..., 나는p } 모든 항목의 집합입니다. 항목 집합은 비어 있지 않은 항목 집합입니다. 시퀀스는 순서가 지정된 일련의 이벤트입니다. 시퀀스 s는 {e1로 표시됩니다. , e2 , e3 ... el } 여기서 이벤트 e1 e2 앞에 나타남 , e3 앞에 나타남 등. 이벤트 ej s의 요소라고도 합니다.

사용자 구매 정보의 경우 이벤트는 고객이 특정 매장에서 상품을 구매하는 쇼핑 여행을 정의합니다. 이벤트는 항목 집합, 즉 고객이 여행 중에 구매한 항목의 정렬되지 않은 목록입니다. 항목 집합(또는 이벤트)이 표시됩니다(x1 x2 ···xq ), 여기서 xk 항목입니다.

항목은 시퀀스 이벤트에서 한 번만 나타날 수 있지만 시퀀스의 다른 이벤트에서 여러 번 나타날 수 있습니다. 시퀀스에 있는 항목의 여러 인스턴스를 시퀀스의 길이라고 합니다. 길이가 l인 시퀀스를 l-시퀀스라고 합니다.

시퀀스 데이터베이스 S는 튜플 그룹(SID, s)입니다. 여기서 SID는 sequence_ID이고 s는 시퀀스입니다. 예를 들어, S에는 상점의 모든 사용자에 대한 시퀀스가 ​​포함됩니다. 튜플(SID, s)은 α가 s의 하위 시퀀스인 경우 시퀀스 α를 포함합니다.

순차 패턴 마이닝의 이 단계는 사용자 쇼핑 순서 분석의 추상화입니다. 이러한 레코드에 대한 순차 패턴 마이닝을 위한 확장 가능한 기술은 다음과 같습니다. -

이 단계에서 다룰 수 없는 여러 순차 패턴 마이닝 응용 프로그램이 있습니다. 예를 들어 웹 클릭스트림 시리즈를 분석할 때 다음 클릭이 무엇인지 예측해야 하는 경우 클릭 간 간격이 필수적입니다.

DNA 서열 분석에서는 DNA 서열이 (기호) 삽입, 결실 및 돌연변이를 포함할 수 있기 때문에 근사 패턴이 도움이 됩니다. 이러한 다양한 요구사항은 제약 완화 또는 적용으로 간주될 수 있습니다.