다음과 같은 통계 데이터 마이닝의 다양한 기술이 있습니다 -
회귀 − 이러한 접근 방식은 변수가 숫자인 하나 이상의 예측 변수(독립) 변수에서 응답(종속) 변수의 값을 예측하는 데 사용됩니다. 선형, 다중, 가중, 다항식, 비모수 및 로버스트를 비롯한 여러 형태의 회귀가 있습니다(로버스트 기술은 오류가 정규성 조건을 충족하지 못하거나 데이터에 중요한 이상값이 포함된 경우 유용합니다).
일반화된 선형 모델 − 이러한 모델과 일반화(일반화 추가 모델)를 통해 범주형 응답 변수(또는 일부 변환)를 선형 회귀를 사용한 수치 응답 변수 모델링과 같은 예측 변수 세트와 연결할 수 있습니다. 일반화 선형 모델에는 로지스틱 회귀 및 푸아송 회귀가 포함됩니다.
변동 분석 − 이 방법은 숫자 응답 변수와 하나 이상의 범주형 변수(요인)로 정의된 둘 이상의 모집단에 대한 실험 데이터를 분석합니다. 일반적으로 ANOVA(단일 요인 분산 분석) 문제는 k 모집단의 비교를 포함하거나 처리가 평균 중 2개 이상이 다른지 결정하기 위해 정의합니다.
혼합 효과 모델 − 이 모델은 그룹화된 데이터(하나 이상의 그룹화 변수별로 분류할 수 있는 데이터)를 분석하기 위한 것입니다. 일반적으로 하나 이상의 요인에 따라 결합된 데이터의 일부 공변량과 반응 변수 간의 관계를 정의합니다. 다단계 데이터, 반복 측정 데이터, 블록 설계 및 종단 데이터와 같은 일반적인 응용 분야.
요인 분석 - 이 방법은 주어진 요인을 만들기 위해 병합된 변수를 결정할 수 있습니다. 예를 들어, 일부 정신과 데이터의 경우 특정 관심 요소(지능 포함)를 직접 측정하는 것이 불가능합니다. 그러나 관심 요소를 반영하는 다른 양(학생 시험 점수 포함)을 측정하는 데 적용할 수 있습니다. 여기에서 어떤 변수도 종속으로 지정되지 않았습니다.
식별 분석 − 이 방법은 범주형 응답 변수를 예측할 수 있습니다. 일반화 선형 모델과 달리 독립 변수가 다변량 정규 분포를 따른다는 것을 의미합니다.
이 프로세스는 응답 변수로 표시되는 그룹을 구별하는 몇 가지 판별 함수(독립 변수의 선형 집합)를 결정하려고 시도합니다. 판별 분석은 일반적으로 사회 과학에서 사용됩니다.
시계열 분석 − 시계열 데이터를 분석하기 위한 몇 가지 통계 기법에는 자동 회귀 방법, 단변량 ARIMA(자동 회귀 통합 이동 평균) 모델링, 장기 메모리 시계열 모델링이 있습니다.
생존 분석 − 생존 분석을 위해 잘 정립된 여러 통계 방법이 있습니다. 이러한 방법은 처음에 치료를 받는 환자가 적어도 t 시간까지 생존할 수 있는 확률을 예측하기 위해 고안되었습니다.
품질 관리 − Shewhart 차트 및 CUSUM 차트(둘 모두 그룹 요약 통계를 표시함)를 포함한 여러 통계를 사용하여 품질 관리용 차트를 준비할 수 있습니다. 이 통계에는 평균, 표준 편차, 범위, 개수, 이동 평균, 이동 표준 편차 및 이동 범위가 포함됩니다.