분류
분류는 데이터 인스턴스의 팀 구성원을 예측하는 데 사용되는 데이터 마이닝 방법입니다. 분류에는 소득계층을 포함한 대상 범주형 변수가 있습니다. 예를 들어, 고소득, 중소득, 저소득과 같은 세 가지 클래스 또는 범주로 나눌 수 있습니다.
데이터 마이닝 모델은 대상 변수 및 입력 또는 예측 변수 집합에 대한 데이터를 포함하는 각 레코드를 포함하는 방대한 레코드 집합을 분석합니다. 예를 들어, 표에 있는 데이터 세트에서 발췌한 내용을 생각해 보십시오.
소득 분류를 위한 데이터 세트에서 발췌
제목 | 나이 | 성별 | 직업 | 소득 브래킷 |
---|---|---|---|---|
001 | 47 | 여성 | 소프트웨어 엔지니어 | 높음 |
002 | 28 | 남성 | 컨설턴트 | 중간 |
003 | 35 | 남성 | 실업자 | 낮음 |
연구자가 나이, 성별, 직업을 포함하여 그 사람과 관련된 다른 특성에 따라 데이터베이스에 없는 사람의 소득 계층을 분류하는 데 적절하다고 가정합니다. 이 작업은 분류 작업입니다. 데이터 마이닝 방법 및 기술에 매우 적합합니다.
알고리즘은 대략 다음과 같이 진행됩니다. 먼저 예측 변수와 (이전에 분류된) 목표 변수인 소득 계층을 모두 포함하는 데이터 세트를 고려하십시오.
이 방법에서 알고리즘은 어떤 변수 조합이 어떤 소득 계층과 관련되어 있는지 이해합니다. 예를 들어, 나이든 여성은 고소득 계층과 관련이 있을 수 있습니다. 이 데이터 세트를 훈련 세트라고 합니다.
비즈니스 및 연구에서 분류 작업의 예는 다음과 같습니다. -
-
특정 신용 카드 거래가 사기인지 여부를 결정할 수 있습니다.
-
특정 요구 사항에 대한 특정 트랙에서 새 후보자를 찾을 수 있습니다.
-
모기지 소프트웨어가 신용 위험이 좋은지 나쁜지 확인하는 데 사용할 수 있습니다.
-
특정 질병이 디스플레이인지 여부를 조사할 수 있습니다.
-
특정 재정적 또는 개인적 행동이 잠재적 테러 위협을 나타내는지 여부를 결정할 수 있습니다.
예측
예측은 분류와 동일하지만 예측의 경우 향후 결과가 잘못 표시됩니다.
비즈니스 및 연구에서 예측 작업의 예는 다음과 같습니다. -
-
3개월 후의 주식 가치를 예측할 수 있습니다.
-
제한속도를 올리면 내년 교통사고 사망자 증가율을 예측할 수 있다.
-
팀 통계의 유사성에 따라 올 가을 야구 월드시리즈의 승자를 예측할 수 있다.
-
신약 개발의 특정 분자가 제약 회사를 위한 수익성 있는 신약 개발을 시작할지 여부를 예측할 수 있습니다.