통계 데이터 마이닝의 방법론은 무엇입니까?

<시간/>

통계 데이터 마이닝 기술에서는 일반적으로 다차원적이고 여러 복잡한 유형일 수 있는 대량의 데이터를 효과적으로 처리하기 위해 생성됩니다.

데이터 분석, 특히 숫자 데이터에 대한 몇 가지 잘 정립된 통계 방법이 있습니다. 이러한 방법은 과학 기록(예:물리학, 공학, 제조, 심리학 및 의학 실험의 기록)과 경제 및 사회 과학의 정보에 광범위하게 사용되었습니다.

통계 데이터 마이닝의 다양한 방법론은 다음과 같습니다 -

회귀 − 일반적으로 이러한 기술은 변수가 숫자인 새 예측 변수(독립) 변수에서 응답(종속) 변수의 값을 예측하는 데 사용됩니다. 선형, 다중, 가중, 다항식, 비모수 및 로버스트를 비롯한 여러 형태의 회귀가 있습니다(로버스트 방법은 오류가 정규성 조건을 충족하기 위해 감소하거나 데이터에 중요한 이상값이 포함된 경우에 유용함).

일반화된 선형 모델 − 이러한 모델 및 일반화(일반화 추가 모델)는 선형 회귀를 사용하는 수학적 응답 변수의 모델링과 동일한 방식으로 범주형(명목형) 응답 변수(그것의 여러 변환)가 예측 변수 세트와 연관될 수 있도록 합니다. . 일반화 선형 모델에는 로지스틱 회귀 및 푸아송 회귀가 포함됩니다.

분산 분석 − 이 방법은 숫자 응답 변수와 새로운 범주형 변수(요인)로 정의된 둘 이상의 모집단에 대한 실험 정보를 분석합니다. 일반적으로 ANOVA(단일 요인 분산 분석) 문제는 k 모집단의 비교를 포함하거나 처리가 평균 중 2개 이상이 다른지 결정하기 위해 정의합니다.

혼합 효과 모델 − 이 모델은 그룹화된 데이터, 즉 하나 이상의 그룹화 변수에 따라 분류할 수 있는 데이터를 탐색하기 위한 것입니다. 일반적으로 하나 이상의 요인에 따라 결합된 데이터의 반응 변수와 여러 공변량 간의 관계를 정의합니다. 다단계 데이터, 반복 측정 데이터, 블록 설계 및 종단 데이터와 같은 여러 응용 분야가 있습니다.

요인 분석 - 이 방법은 주어진 요인을 생성하기 위해 결합된 변수를 결정할 수 있습니다. 예를 들어, 여러 정신과 데이터의 경우 특정 관심 요소(예:지능)를 직접 계산하는 데 적용할 수 없습니다. 그러나 관심 요소를 반영하는 다른 양을 측정하는 데 적용할 수 있습니다. 따라서 어떤 변수도 종속으로 적용되지 않습니다.

식별 분석 − 이 기법은 범주형 응답 변수를 예측할 수 있습니다. 일반화 선형 모델과 달리 독립 변수가 다변량 정규 분포를 따르는 것으로 간주합니다. 이 프로세스는 응답 변수로 표시되는 그룹을 구별하는 여러 판별 함수(독립 변수의 선형 집합)를 결정하려고 시도합니다. 판별 분석은 일반적으로 사회 과학에서 사용됩니다.

생존 분석 − 생존 분석을 위해 잘 정립된 여러 통계 방법이 있습니다. 이러한 기술은 처음에 의학적 분석을 받는 환자가 적어도 시간 t까지 생존할 수 있는 확률을 예측하기 위해 고안되었습니다.

품질 관리 − 품질 관리를 위한 차트 작성에는 Shewhart 차트, CUSUM 차트 등 여러 통계가 사용됩니다. 이러한 통계에는 평균, 표준 편차, 범위, 개수, 이동 평균, 이동 표준 편차 및 이동 범위가 포함됩니다.