Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

SOM 알고리즘이란 무엇입니까?


SOM은 자체 구성 기능 맵을 나타냅니다. 클러스터링 및 데이터 시각화 기술은 신경망 관점에 따라 다릅니다. SOM의 신경망 기반에 관계없이 프로토타입 기반 클러스터링의 변경 맥락에서 최소한으로 제시됩니다.

SOM의 알고리즘은 다음과 같습니다 -

  • 중심을 초기화합니다.

  • 반복

  • 다음 개체를 선택하십시오.

  • 물체에 가장 가까운 중심을 결정합니다.

  • 이 중심과 가까운, 즉 특정 이웃에 있는 중심을 새로 고칩니다.

  • 중심이 많이 변경되지 않거나 임계값이 공간을 벗어날 때까지

  • 가장 가까운 중심에 각 개체를 만들고 중심과 클러스터를 복원합니다.

초기화 − 이 단계(라인 1)는 여러 가지 방법으로 구현할 수 있습니다. 한 가지 방법은 해당 요소에 대한 데이터에서 관찰된 값 범위에서 중심의 각 요소를 무작위로 선택하는 것입니다.

이 방법은 효과가 있지만 본질적으로 특히 빠른 수렴을 위한 최상의 방법은 아닙니다. 또 다른 방법은 접근 가능한 데이터 포인트에서 원래 중심을 무작위로 선택하는 것입니다. 이는 K-평균에 대한 중심을 무작위로 선택하는 것과 매우 유사합니다.

객체 선택 − 루프의 첫 번째 단계(라인 3)는 다음 개체를 선택하는 것입니다. 이것은 간단하지만 몇 가지 어려움이 있습니다. 수렴에는 몇 가지 단계가 필요할 수 있으므로 특히 여러 개체가 작은 경우 각 데이터 개체를 여러 번 사용할 수 있습니다. 그러나 개체 수가 많으면 각 개체를 사용할 필요가 없습니다. 훈련 세트에서 빈도를 향상시켜 특정 개체 그룹의 영향을 향상시키는 데에도 적용할 수 있습니다.

과제 − 가장 가까운 중심(라인 4)의 결정은 거리 메트릭에 대한 설명이 필요하지만 쉽습니다. 내적 메트릭과 마찬가지로 유클리드 거리 메트릭이 사용됩니다. 내적 거리를 사용할 때 일반적으로 데이터 벡터는 미리 정규화되고 참조 벡터는 모든 단계에서 정규화됩니다. 이 방법에서 내적 메트릭을 사용하는 것은 코사인 측정을 사용하는 것과 동일합니다.

업데이트 − 업데이트 단계(라인 5)가 어렵습니다. m1..., mk를 중심이라고 합니다. 시간 단계 t에 대해 p(t)를 현재 객체(점)로 하고 p(t)에 가장 가까운 중심이 mj라고 가정합니다. 따라서 시간 t+1 동안 j번째 중심은 다음 식을 사용하여 새로 고침됩니다.

$$\mathrm{mj(t + 1) =mj(t) + hj(t)(p(t) - mj(t))}$$

해지 − 안정적인 중심 집합에 적절한 시점을 결정하는 것은 필수적인 문제입니다. 이상적으로는 수렴이 나타날 때까지, 즉 참조 벡터가 변경되지 않거나 작게 변경될 때까지 반복을 계속해야 합니다. 수렴 비용은 데이터 및 𝛼(t)를 포함한 여러 요인을 기반으로 합니다.