순차 예외 기법이란?

<시간/>

순차 예외 기술은 인간이 유사하다고 생각되는 일련의 개체 사이에서 비정상적인 집합을 구별할 수 있는 방법을 시뮬레이션합니다. 데이터의 암시적 중복을 돕습니다.

n 개체의 데이터 세트 D가 주어지면 {D₁ 하위 집합 시퀀스를 구성합니다. , D₂ ,..., D_m }, 2 ≤ m ≤ n인 이러한 객체 중

$$\mathrm{D_{j−1}\subset D_{j}\:\:where\:D_{j}\subseteq D}$$

시리즈의 하위 집합 간에 차이점이 평가됩니다. 이 기술은 다음과 같은 용어를 학습합니다. -

예외 설정 - 이것은 편차 또는 이상치의 집합입니다. 이것은 제거로 인해 잔여 집합에서 유사도가 가장 크게 감소하는 객체의 가장 작은 하위 집합으로 정의됩니다.

비유사성 함수 − 이 기능은 객체 간의 미터법 거리가 필요하지 않습니다. 개체 집합이 주어지면 개체가 서로 같으면 낮은 값을 복원합니다. 객체 간의 비유사도가 높을수록 함수에서 반환하는 값이 높아집니다.

부분 집합의 비유사성은 시퀀스에서 이전 부분 집합에 따라 점진적으로 계산됩니다. n개의 숫자의 하위 집합이 주어지면 {x₁ ,..., x_n }, 가능한 비유사성 함수는 집합에 있는 숫자의 분산입니다.

$$\mathrm{\frac{1}{n}\displaystyle\sum\limits_{i=1}^n (x_{i}-x^{'})^2}$$

여기서 x^' 집합에 있는 n개의 숫자의 평균입니다. 문자열의 경우 비유사성 기능은 지금까지의 모든 패턴 보기를 포함할 수 있는 패턴 문자열(예:와일드카드 문자 포함)의 디자인에 있을 수 있습니다. 패턴이 D_j−1의 일부 문자열을 덮을 때 비유사도가 증가합니다. D_j의 일부 문자열을 포함하지 않습니다. D_j−1에 없는 것 .

카디널리티 함수 − 이것은 일반적으로 주어진 세트에 있는 여러 개체의 개수입니다.

스무딩 팩터 - 이 함수는 시퀀스의 각 부분 집합에 대해 계산됩니다. 초기 개체 집합에서 부분 집합을 제거하여 비유사성을 얼마나 줄일 수 있는지 평가합니다. 이 값은 집합의 카디널리티에 따른 비율입니다. 평활 계수 값이 가장 높은 부분 집합이 예외 집합입니다.

예외 집합을 찾는 기능은 NP-hard(즉, 다루기 힘든)일 수 있습니다. 순차 방법은 계산적으로 가능하며 선형 알고리즘을 사용하여 실행할 수 있습니다.

상보적 집합과 관련된 현재 하위 집합의 비유사성을 평가하는 대신 알고리즘은 분석을 위해 집합에서 일련의 하위 집합을 선택합니다. 각 부분 집합에 대해 시퀀스의 이전 부분 집합에 대한 부분 집합의 유사성 차이를 결정합니다.