Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

데이터 마이닝에서 무작위 알고리즘 및 데이터 스트림 관리 시스템이란 무엇입니까?


무작위 알고리즘 − 무작위 샘플링 및 청사진 형태의 무작위 알고리즘은 대규모 고차원 데이터 스트림을 처리하는 데 사용됩니다. 무작위화의 필요성은 알려진 결정론적 알고리즘과 대조적으로 더 간단하고 효과적인 알고리즘으로 이어집니다.

무작위 알고리즘이 계속해서 정답을 반환하지만 실행 시간이 변경되는 경우를 라스베거스 알고리즘이라고 합니다. 이에 반해 Monte Carlo 알고리즘은 실행 시간에 한계가 있지만 실제 결과를 복원할 수는 없습니다. 일반적으로 Monte Carlo 알고리즘을 고려할 수 있습니다. 무작위 알고리즘의 중요성은 단순히 결정론적 알고리즘 그룹에 대한 확률 분포입니다.

무작위 알고리즘이 결과적으로 무작위 변수를 복원한다는 점을 감안할 때 해당 무작위 변수의 꼬리 확률에 한계가 있을 가능성이 높습니다. 이것은 확률 변수가 예상 값과 다를 확률이 짧다는 것을 알려줍니다. 주요 도구는 체비쇼프의 부등식입니다.

X를 평균 µ와 표준 편차 σ(분산 σ 2 ). 체비쇼프의 부등식은 다음과 같이 말합니다.

$$\mathrm{P(|X-\mu|>k)<\frac{\sigma^2 }{k^2}}$$

주어진 양의 실수에 대해 k. 이 부등식은 확률 변수의 분산을 제한하는 데 사용됩니다. 여러 경우에 여러 확률 변수를 사용하여 이 결과의 신뢰도를 높일 수 있습니다. 이러한 랜덤 변수가 완전히 독립적임을 고려하면 Chernoff 경계를 사용할 수 있습니다.

X1 X2 ... Xn 독립적인 푸아송 시험이 됩니다. 푸아송 시행에서 성공 확률은 시행마다 바뀝니다. X가 X1의 합인 경우 Xn까지 , Chernoff 경계의 약한 버전은 다음과 같이 알려줍니다.

$$\mathrm{P[X<(1+\delta)\mu]

여기서 δ ∈ (0, 1]. 이것은 확률이 평균에서 멀어질 수 있으므로 기하급수적으로 감소한다는 것을 보여주므로 잘못된 추정치가 훨씬 더 가능성이 낮습니다.

데이터 스트림 관리 시스템 − 데이터 스트림 관리 시스템에는 여러 데이터 스트림이 있습니다. 그것들은 온라인에 나타나며 연속적이고 일시적으로 연속적이며 무한할 수 있습니다. 데이터 스트림의 구성 요소가 처리되었기 때문에 폐기되거나 보관되며 메모리에 명시적으로 저장되지 않는 한 단순히 가져올 수 없습니다.

스트림 데이터 쿼리 처리 구조에는 최종 사용자, 쿼리 프로세서 및 스크래치 공간(메인 메모리 및 디스크 포함 가능)과 같은 세 가지 요소가 포함됩니다. 최종 사용자는 DSMS에 대한 쿼리를 처리하고 쿼리 프로세서는 쿼리를 받아 스크래치 공간에 저장된 데이터를 사용하여 처리하고 결과를 사용자에게 복원합니다.

쿼리는 일회성 쿼리 또는 연속 쿼리일 수 있습니다. 일회성 쿼리는 데이터 세트의 특정 시점 사진에 대해 한 번 계산되고 사용자에게 답변이 복원됩니다. 연속 쿼리는 데이터 스트림이 계속 표시됨에 따라 계속 계산됩니다.