일반화된 선형 모델은 범주형 응답 변수의 모델링에 선형 회귀를 사용할 수 있는 이론적 권위를 정의합니다. 일반화 선형 모델에서 응답 변수 y의 분산은 y의 분산이 일정한 선형 회귀와 달리 y의 평균값의 함수입니다.
일반화 선형 모델(GLM)은 기존 선형 모델의 확장입니다. 이 알고리즘은 로그 가능성을 최대화하여 정보에 일반화된 선형 모델을 맞춥니다. 탄력적 순 패널티는 매개변수 정규화에 사용할 수 있습니다. 모델 피팅 계산은 평행하고 완전히 빠르며 계수가 0이 아닌 일정한 수의 예측 변수가 있는 모델에 대해 완벽하게 확장됩니다.
로지스틱 회귀 및 푸아송 회귀와 같은 두 가지 유형의 일반화 선형 모델이 있습니다. 로지스틱 회귀는 예측 변수 그룹의 선형 함수로 나타나는 다양한 이벤트의 확률을 모델링합니다. 개수 데이터는 푸아송 분포를 자주 표시하며 일반적으로 푸아송 회귀를 사용하여 모델링됩니다.
로그 선형 모델은 이산 다차원 확률 분포를 정확하게 나타냅니다. 데이터 큐브 셀과 관련된 확률 값을 계산하는 데 사용할 수 있습니다. 예를 들어 도시, 품목, 연도 및 판매 속성에 대한 데이터가 주어졌다고 가정합니다. 로그 선형 접근 방식에서 모든 속성은 범주형이어야 하므로 연속 값 속성(예:판매)은 이산화되어야 합니다.
접근 방식은 주어진 속성에 대한 4차원 기본 직육면체의 각 셀의 확률을 계산하는 데 사용할 수 있으며 도시 및 항목, 도시 및 연도, 도시 및 판매, 3차원 직육면체에 대한 2차원 직육면체에 따라 다릅니다. 항목, 연도 및 판매. 이 방법에서는 반복적인 접근 방식을 사용하여 하위 데이터 큐브에서 상위 시리즈 데이터 큐브를 만들 수 있습니다.
이 방법은 여러 차원을 사용할 수 있도록 확장됩니다. 예측을 제외하고 로그 선형 모델은 데이터 압축(저차 직육면체는 일반적으로 기본 직육면체보다 작은 영역을 차지하기 때문에) 및 데이터 평활화(소차 직육면체에서 셀 계산이 샘플링 변동에 덜 의존하기 때문에)에 유용합니다. 셀은 기본 직육면체에서 계산).
의사 결정 트리 유도는 클래스 레이블 대신 연속(순서화된) 값을 예측하는 데 적합할 수 있습니다. 예측 회귀 트리와 모델 트리에는 두 가지 유형의 트리가 있습니다. 회귀 트리는 CART 학습 시스템의 요소로 제안되었습니다.
모든 회귀 트리 리프는 연속값 예측을 저장합니다. 이 예측은 리프를 파악하는 훈련 튜플에 대한 예측된 속성의 평균 값입니다. 대조적으로, 모델 트리에서 모든 잎은 회귀 모델과 예측된 속성에 대한 다변량 선형 방정식에 영향을 미칩니다. 회귀 및 모델 트리는 데이터가 단순 선형 모델로 잘 정의되지 않은 경우 선형 회귀보다 효율적으로 영향을 미칩니다.