이진 변수에는 0 또는 1과 같은 두 가지 상태만 있습니다. 여기서 0은 변수가 없음을 정의하고 1은 변수가 있음을 정의합니다. 예를 들어, 환자를 정의하는 변수 smoker가 주어지면 1은 환자가 담배를 피우는 것을 나타내고 0은 환자가 담배를 피우지 않음을 나타냅니다. 이진 변수를 간격 척도화하면 잘못된 클러스터링 결과를 초래할 수 있는 것처럼 고려할 수 있습니다. 따라서 이진 데이터로 정의하는 방법은 유사도를 계산하는 데 필수적입니다.
주어진 이진 데이터에서 비유사성 행렬을 계산하는 한 가지 방법이 있습니다. 일부 이진 변수가 유사한 가중치를 갖는 것으로 간주되는 경우 2x2 분할표를 가질 수 있습니다. 여기서 q는 객체 i와 j 모두에 대해 1과 유사한 변수의 수이고, r은 다음과 같은 변수의 수입니다. 객체 i에 대해 동일한 1이지만 객체 j에 대해 0이고, s는 객체 i에 대해 동일하지만 객체 j에 대해 1과 유사한 변수의 수이고, t는 두 객체 i에 대해 0과 유사한 변수의 수입니다. 그리고 j. 변수의 총 개수는 p이며, 여기서 p =q+r +s+t입니다.
이진 변수는 두 상태가 모두 동일하게 가치가 있고 동일한 가중치를 전달하는 경우 대칭입니다. 즉, 결과가 0 또는 1로 코딩되어야 하는 선호도가 없습니다. 대칭 이진 변수에 의존하는 비유사도를 대칭 이진 비유사라고 합니다.
질병 검사의 양성 및 음성 결과를 포함하여 상태의 결과가 중요하지 않은 경우 이진 변수는 비대칭입니다. 관례에 따라 일반적으로 가장 희귀한 필수 결과를 1(예:HIV 양성)로, 다른 하나는 0(예:HIV 음성)으로 코딩합니다.
두 개의 비대칭 이진 변수가 주어지면 두 개의 1(양의 일치)의 일치가 두 개의 0(음의 일치)의 일치보다 더 중요하게 처리됩니다. 따라서 이러한 이진 변수는 하나의 상태를 갖는 것처럼 "단원"으로 처리됩니다.
이러한 변수를 기반으로 하는 비유사성은 비대칭 이진 비유사성으로 알려져 있습니다. 여기서 여러 음수 일치 t는 중요하지 않은 것으로 취급되므로 방정식
에 표시된 대로 계산에서 무시됩니다.$$\mathrm{d(i, j)=\:\frac{r+s}{q+r+s}}$$
비유사성보다는 유사성 개념에 따라 두 이진 변수 사이의 거리를 계산할 수 있습니다. 예를 들어, 객체 i와 j 또는 sim(i, j) 사이의 비대칭 이진 유사성은 다음과 같이 계산할 수 있습니다.
$$\mathrm{sim(i, j)=\:\frac{q}{q+r+s}=1-d(i,j)}$$.
계수 sim(i, j)은 Jaccard 계수로 알려져 있습니다.