거리는 MBR이 유사성을 계산하는 방법입니다. 일부 실제 거리 측정법의 경우 d(A,B)로 표시되는 점 A에서 점 B까지의 거리에는 다음과 같은 네 가지 기능이 있습니다. -
-
잘 정의됨 − 두 점 사이의 거리는 연속적으로 정의되며 음이 아닌 실수 d(A,B) ≥ 0입니다.
-
신원 − 한 점에서 자신까지의 거리는 계속 0이므로 d(A, A) =0입니다.
-
가환성 − 방향은 차이를 만들지 않으므로 A에서 B까지의 거리는 B에서 A까지의 거리와 유사합니다. d(A,B) =d(B,A). 예를 들어 이 기능은 일방통행 도로를 배제합니다.
-
삼각형 부등식 − A에서 B로 가는 방법에서 중간 지점 C를 방문할 수 있으므로 거리를 압축하지 않으므로 d(A,B) ≥ d(A,C) + d(C,B)입니다.
MBR의 경우 포인트는 확실히 데이터베이스의 데이터입니다. 거리에 대한 이 설명은 유사성 계산의 기초이지만 MBR은 이러한 제약 조건 중 일부가 약간 구성될 때 꽤 잘 작동합니다.
예를 들어, 뉴스 기사 정의 사례 연구의 거리 함수는 뉴스 기사 A에서 다른 B까지의 거리가 B에서 A까지의 거리와 지속적으로 동일하지 않도록 변경할 수 없었습니다. 그러나 유사성 측정은 분류 목적에 유익했습니다. .
거리가 잘 정의되어 있다는 사실은 각 데이터에 데이터베이스 어딘가에 이웃이 있고 MBR이 작동하려면 이웃이 필요하다는 것을 의미합니다. identity 속성은 주어진 데이터와 가장 유사한 데이터가 초기 레코드 자체라는 직관적인 개념에 따라 거리를 생성합니다.
가환성과 삼각형 부등식은 지역적이고 잘 정의된 가장 가까운 이웃을 만듭니다. 데이터베이스에 새 데이터를 삽입하면 기존 레코드가 더 가까워지지 않습니다. 유사성은 한 번에 두 개의 데이터에만 예약된 문제입니다. 거리 측정이 최근접이웃을 발견할 수 있지만 잘 정의되어 있지만 최근접이웃 집합은 몇 가지 독특한 특징을 가질 수 있습니다.
이웃 집합은 데이터 거리 함수가 영역 거리 함수를 결합하는 방법에 따라 다릅니다. 실제로 summation 함수를 사용하는 두 번째로 가까운 이웃은 Euclidean 등을 사용하는 가장 먼 이웃입니다. 모든 영역이 연관적으로 가까운 이웃을 선호하는 Euclidean 메트릭 영향인 summation 또는 normalized metric과 비교됩니다.
합산, 유클리드 및 정규화 함수는 가중치를 포함할 수도 있으므로 각 영역은 데이터 거리 함수에 다른 양을 기여합니다. MBR은 일반적으로 일부 가중치가 1과 같을 때 좋은 결과를 만듭니다. 그러나 때로는 가중치를 사용하여 분류에 큰 영향을 미칠 것으로 의심되는 특정 분야를 포함하여 선험적 지식을 포함할 수 있습니다.