유사성 측정은 일부 데이터 마이닝 결정의 기반이 되는 프레임워크를 제공합니다. 분류 및 클러스터링을 포함한 작업은 일반적으로 일부 유사성 측정의 존재를 고려하는 반면, 유사성을 평가하는 기술이 부족한 분야는 종종 정보 검색이 번거로운 기능임을 알게 됩니다.
유사성 측정의 여러 응용 프로그램은 다음과 같습니다 -
정보 검색 − 정보 검색(IR) 시스템의 목표는 사용자의 요구를 충족시키는 것입니다. 다른 말로 하면, 필요는 일반적으로 일부 온라인 검색 엔진의 텍스트 상자에 도입된 짧은 텍스트 쿼리의 형태로 나타납니다. IR 시스템은 일반적으로 쿼리에 직접 응답하지 않고 대신 일부 유사성 측정에 의해 해당 쿼리와 관련이 있다고 판단되는 순위 기록 목록을 표시합니다.
유사성 측정은 쿼리에 관한 정보를 클러스터링하고 분류하는 효과가 있기 때문에 사용자는 일반적으로 쿼리를 재구성할 때 유용하거나 유용하지 않을 수 있는 정보 요구 사항에 대한 새로운 해석을 찾을 수 있습니다.
쿼리가 초기 세트의 레코드인 경우 유사성 측정을 사용하여 컬렉션 내의 레코드를 클러스터링하고 분류할 수 있습니다. 요컨대, 유사성 측정은 이전에 구조화되지 않은 집합에 기초 아키텍처를 삽입할 수 있습니다.
동기
정보검색 시스템에서 사용되는 유사성 측정은 전체 데이터 세트에 대한 인식을 왜곡할 수 있습니다. 예를 들어, 사용자가 검색 엔진에 쿼리를 입력하고 반환된 상위 10개 웹 페이지에서 만족스러운 답변을 찾지 못하면 일반적으로 이 쿼리를 한두 번 재구성하려고 시도합니다.
고전적인 유사성 측정
유사성 측정은 k 크기의 튜플 쌍에서 스칼라 수로의 매핑으로 정의됩니다. 관례에 따라 모든 유사성 측정값은 [-1, 1] 또는 [0, 1] 범위에 매핑되어야 하며, 여기서 유사성 점수 1은 최대 유사성을 나타냅니다. 유사성 척도는 비교되는 두 항목의 여러 속성이 증가함에 따라 그 가치가 증가하는 특성을 나타내야 합니다.
주사위
주사위 계수는 정밀도 및 재현율 측정의 조화 평균을 일반화한 것입니다. 고조파 평균을 가진 시스템은 높은 수준의 재현율에서 고정밀 값을 관리할 수 있다는 점에서 이론적으로 이상적인 검색 시스템에 더 가깝습니다. 정밀도와 재현율에 대한 조화 평균은 다음과 같습니다.
$$E=\frac{2}{\frac{1}{P}+\frac{1}{R}}$$
주사위 계수는
로 표시됩니다.$$sim(d,d_{j})=D(A,B)=\frac{|A\cap B|}{\alpha|A|+(1-\alpha)|B|}\cong \frac {\propto \sum_{k=1}^{n}w_{kq}w_{kj}}{\propto \sum_{k=1}^{n}\mathrm{w}_{kq}^{2} +(1-\propto)\sum_{k=1}^{n}\mathrm{w}_{kj}^{2}}$$
α ε [0, 1]. 주사위 계수가 가중 조화 평균임을 표시할 수 있습니다. α =1/2입니다.
겹침
겹침 계수는 두 집합이 겹치는 정도를 결정하려고 합니다. 겹침 계수는 다음과 같이 비교됩니다.
$$sim(d,d_{j})=D(A,B)=\frac{|A\cap B|}{min(|A|,|B|)}\cong \frac{\propto \sum_ {k=1}^{n}w_{kq}w_{kj}}{\propto \sum_{k=1}^{n}\mathrm{w}_{kq}^{2}+\sum_{k =1}^{n}\mathrm{w}_{kj}^{2}}$$
중첩 계수는 최소 대신 최대 연산자를 사용하여 계산됩니다.