Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

데이터 마이닝에 통계가 필요한 이유는 무엇입니까?

<시간/>

통계는 데이터로부터 학습하는 과학입니다. 여기에는 일련의 기록 계획 및 후속 데이터 관리에서부터 데이터라고 하는 수치적 사실로부터 추론을 도출하고 결과를 제시하는 것을 포함하여 라인 끝 활동에 이르기까지 모든 것이 포함됩니다. 통계는 가장 필수적인 사람, 즉 혁신과 불확실성에 직면하여 지구와 작동 방식에 대해 더 많이 알아야 할 필요성과 관련이 있습니다.

정보는 지식의 커뮤니케이션입니다. 데이터는 그 자체로 지식이 아니라 조잡한 데이터라고 합니다. 데이터에서 지식으로의 순서는 다음과 같습니다. 데이터에서 정보로(데이터가 의사결정 문제와 관련하여 발전할 때 정보로 발전함); 정보에서 사실로(정보가 데이터를 뒷받침할 수 있을 때 정보가 사실이 됨), 마지막으로 사실에서 지식으로(사실이 의사결정 과정의 성공적인 경쟁에서 사용될 때 지식이 됨).

통계는 체계적인 증거 기반에 지식을 배치할 필요성에서 비롯되었습니다. 이를 위해서는 확률 법칙, 데이터 속성 및 관계 계산의 발전 등에 대한 연구가 필요했습니다.

통계는 모든 데이터 마이닝 알고리즘의 필수 요소인 숫자 레코드의 분석 및 표시를 정의합니다. 방대한 양의 데이터를 처리할 수 있는 도구 및 분석 방법을 지원합니다. 통계에는 계획, 설계, 정보 수집, 연구 결과 분석 및 보고가 포함됩니다. 이러한 통계는 수학에만 정의되는 것이 아니라 비즈니스 분석가도 통계를 사용하여 비즈니스 문제를 해결하기 때문입니다.

추론 통계는 표본이 모집단 매개변수의 값을 추정하는 데 사용됩니다. 두 데이터 세트가 유사하거나 다른지 확인하기 위해 가설 테스트를 수행할 수 있습니다. 인과관계를 설명하기 위해 선형 또는 다중 회귀 분석을 수행하는 데 사용됩니다.

가설 테스트는 두 데이터 세트를 수치적으로 비교할 수 있습니다. 예를 들어, 이 판매량이 주요 경쟁업체의 판매량과 비슷하거나 더 낫다고 느낄 수 있습니다(가정). 가설 테스트를 사용하여 이 가정을 수학적으로 확인하거나 거부할 수 있습니다.

상관 분석은 원하는 비즈니스 결과에 큰 영향을 미치는 비즈니스 변수를 확인하기 위해 종종 거대한 데이터 세트에서 관찰되는 여러 무작위 변수에서 관심 변수를 분리하는 간단한 도구입니다.

Shewhart 차트 및 누적 차트(둘 모두 그룹 요약 통계를 표시함)를 비롯한 여러 통계를 사용하여 품질 관리용 차트를 준비할 수 있습니다. 이 통계에는 평균, 표준 편차, 범위, 개수, 이동 평균, 이동 표준 편차 및 이동 범위가 포함됩니다.