예측자 수를 줄이는 방법은 무엇입니까?

<시간/>

데이터 마이닝에서 자주 발생하는 문제는 회귀 방정식을 사용하여 이 모델에서 예측 변수로 선택할 수 있는 여러 변수를 가질 수 있는 경우 종속 변수의 값을 예측하는 것입니다.

이전에 숨겨진 관계가 나타날 것이라는 희망으로 수많은 변수를 포함하는 것을 선호하는 또 다른 고려 사항입니다. 예를 들어, 한 회사는 의자와 테이블 다리용 긁힘 방지 보호대를 구입한 고객이 신용 위험이 더 낮다는 것을 발견했습니다.

가능한 모든 변수를 모델에 던지기 전에 주의를 기울여야 하는 몇 가지 이유가 있습니다.

예상되는 예측에 대한 예측 변수의 전체 보완을 설정하는 것은 비용이 많이 들거나 실현 가능하지 않을 수 있습니다.
더 적은 수의 예측 변수를 더 정확하게 계산할 수 있습니다(예:설문조사에서).
예측 변수가 많을수록 데이터에서 값이 누락될 가능성이 높아집니다. 누락된 값이 있는 레코드를 삭제하거나 대치하면 여러 예측자가 레코드 삭제 또는 대치 비율이 더 높아집니다.
간결함은 좋은 모델의 필수 요소입니다. 매개변수가 거의 없는 모델에서 예측 변수의 영향에 대해 더 많은 통찰력을 얻습니다.
회귀 계수의 추정치는 여러 변수가 있는 모델의 다중 공선성 때문에 모호할 수 있습니다. (다공선성은 결과 변수와 동일한 선형 관계를 공유하는 둘 이상의 예측 변수의 존재입니다.)
회귀 계수는 간결한 모델에 대해 강력합니다. 대략적인 경험 법칙 중 하나는 5(p + 2)보다 큰 여러 레코드 n을 갖는 것입니다. 여기서 p는 예측 변수의 수입니다.
결과 변수와 상관 관계가 없는 예측 변수를 사용하면 예측의 분산이 증가함을 알 수 있습니다.
결과 변수와 상관 관계가 있는 예측 변수를 삭제하면 예측의 평균 오류(편향)가 증가할 수 있음을 알 수 있습니다.

마지막 두 점은 너무 적은 예측 변수와 너무 많은 예측 변수 사이에 균형이 있음을 정의합니다. 일반적으로 일부 편향을 수용하면 예측의 분산을 줄일 수 있습니다. 이 편향-분산 트레이드오프는 잡음의 표준 편차에 해당하는 작은 계수를 갖고 다른 변수와의 상관관계도 볼 수 있는 모델에 변수가 있을 가능성이 높기 때문에 다중 예측 변수에 특히 중요합니다.

이러한 변수를 삭제하면 예측 분산이 감소하므로 예측이 향상됩니다. 이러한 종류의 편향-분산 트레이드오프는 예측 및 분류를 위한 데이터 마이닝 절차의 필수 요소입니다.