분류 및 예측이란 무엇입니까?

<시간/>

분류

분류는 데이터 인스턴스의 팀 구성원을 예측하는 데 사용되는 데이터 마이닝 방법입니다. 분류에는 소득계층을 포함한 대상 범주형 변수가 있습니다. 예를 들어, 고소득, 중소득, 저소득과 같은 세 가지 클래스 또는 범주로 나눌 수 있습니다.

데이터 마이닝 모델은 대상 변수 및 입력 또는 예측 변수 집합에 대한 데이터를 포함하는 각 레코드를 포함하는 방대한 레코드 집합을 분석합니다. 예를 들어, 표에 있는 데이터 세트에서 발췌한 내용을 생각해 보십시오.

소득 분류를 위한 데이터 세트에서 발췌

제목	나이	성별	직업	소득 브래킷
001	47	여성	소프트웨어 엔지니어	높음
002	28	남성	컨설턴트	중간
003	35	남성	실업자	낮음

연구자가 나이, 성별, 직업을 포함하여 그 사람과 관련된 다른 특성에 따라 데이터베이스에 없는 사람의 소득 계층을 분류하는 데 적절하다고 가정합니다. 이 작업은 분류 작업입니다. 데이터 마이닝 방법 및 기술에 매우 적합합니다.

알고리즘은 대략 다음과 같이 진행됩니다. 먼저 예측 변수와 (이전에 분류된) 목표 변수인 소득 계층을 모두 포함하는 데이터 세트를 고려하십시오.

이 방법에서 알고리즘은 어떤 변수 조합이 어떤 소득 계층과 관련되어 있는지 이해합니다. 예를 들어, 나이든 여성은 고소득 계층과 관련이 있을 수 있습니다. 이 데이터 세트를 훈련 세트라고 합니다.

비즈니스 및 연구에서 분류 작업의 예는 다음과 같습니다. -

예측은 분류와 동일하지만 예측의 경우 향후 결과가 잘못 표시됩니다.

비즈니스 및 연구에서 예측 작업의 예는 다음과 같습니다. -