Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

데이터 스트림 클러스터링 방법론은 무엇입니까?

<시간/>

데이터 스트림 클러스터링은 전화 데이터, 멀티미디어 데이터, 화폐 거래 등을 포함하여 지속적으로 나타나는 데이터의 클러스터링으로 설명됩니다. 데이터 스트림 클러스터링은 일반적으로 스트리밍 알고리즘으로 취급되며 목표는 일련의 포인트가 주어지면 최상의 클러스터링을 만드는 것입니다. 적은 양의 메모리와 시간을 사용하여 스트림의.

일부 애플리케이션은 유사성을 기반으로 한 세트로 이러한 데이터의 자동화된 클러스터링이 필요했습니다. 웹 침입 탐지, 웹 클릭스트림 분석, 주식 시장 분석을 위한 애플리케이션이 그 예입니다.

정적 데이터 집합을 클러스터링하는 몇 가지 동적 방법이 있습니다. 데이터 스트림을 클러스터링하면 이러한 알고리즘에 추가적인 힘이 가해집니다. 제한된 메모리와 명확한 처리 시간을 사용하여 데이터에 대한 단일 패스를 생성하는 데 필요한 계산 알고리즘의 데이터 스트림 모델을 볼 수 있습니다. 반면 스트림은 매우 동적이고 시간이 지남에 따라 진화할 수 있습니다.

데이터 스트림 클러스터링에는 다음과 같은 몇 가지 방법론이 있습니다. -

과거 데이터의 요약 계산 및 저장 − 제한된 메모리 공간과 빠른 응답 요구 사항으로 인해 이전에 본 데이터의 요약을 계산하고 관련 결과를 저장하고 필요할 때 이러한 요약을 사용하여 중요한 통계를 계산합니다.

분할 정복 전략 적용 − 도착 순서에 따라 데이터 스트림을 청크로 나누고 이러한 청크에 대한 요약을 계산한 다음 요약을 병합할 수 있습니다. 이 방법에서는 더 작은 빌딩 블록으로 더 높은 모델을 구성할 수 있습니다.

수신 데이터 스트림의 증분 클러스터링 − 스트림 데이터는 시스템을 지속적으로 점진적으로 도입하기 때문에 변경된 클러스터는 점진적으로 정교해야 합니다.

마이크로클러스터링 및 매크로클러스터링 분석 수행 − 스트림 클러스터는 다음과 같이 두 단계로 계산할 수 있습니다. −

  • 계층적 상향식 클러스터링 알고리즘을 적용하여 마이크로 클러스터가 형성되는 마이크로 클러스터 수준에서 요약을 계산하고 저장할 수 있습니다.

  • 사용자 지정 수준에서 매크로 클러스터를 계산할 수 있습니다(예:다른 클러스터링 알고리즘을 사용하여 마이크로 클러스터를 그룹화). 이 2단계 계산은 데이터를 효율적으로 압축하고 더 작은 오류 영역에서 결과를 제공합니다.

클러스터 진화 분석을 위한 다중 시간 세분성 탐색 − 최신 데이터는 스트림 데이터 분석에서 원격(즉, 이전) 데이터의 역할과 다른 역할을 하는 경우가 많기 때문에 기울어진 시간 프레임 모델을 사용하여 다른 시점에서 요약된 데이터의 스냅샷을 저장합니다.

스트림 클러스터링을 온라인 및 오프라인 프로세스로 분할 − 데이터가 스트리밍되는 동안 데이터 스냅샷의 기본 요약을 계산, 저장 및 증분 업데이트해야 합니다.

따라서 이러한 동적으로 변화하는 클러스터를 유지하기 위해서는 온라인 프로세스가 필요하다. 한편, 사용자는 과거, 현재 또는 진화하는 클러스터에 대해 질문하기 위해 쿼리를 제기할 수 있습니다. 이러한 분석은 오프라인으로 수행하거나 온라인 클러스터 유지 관리와 독립적인 프로세스로 수행할 수 있습니다.