Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

분류 및 예측이란 무엇입니까?

<시간/>

분류

분류는 데이터 인스턴스의 팀 구성원을 예측하는 데 사용되는 데이터 마이닝 방법입니다. 분류에는 소득계층을 포함한 대상 범주형 변수가 있습니다. 예를 들어, 고소득, 중소득, 저소득과 같은 세 가지 클래스 또는 범주로 나눌 수 있습니다.

데이터 마이닝 모델은 대상 변수 및 입력 또는 예측 변수 집합에 대한 데이터를 포함하는 각 레코드를 포함하는 방대한 레코드 집합을 분석합니다. 예를 들어, 표에 있는 데이터 세트에서 발췌한 내용을 생각해 보십시오.

소득 분류를 위한 데이터 세트에서 발췌

제목 나이 성별 직업 소득 브래킷
001 47 여성 소프트웨어 엔지니어 높음
002 28 남성 컨설턴트 중간
003 35 남성 실업자 낮음

연구자가 나이, 성별, 직업을 포함하여 그 사람과 관련된 다른 특성에 따라 데이터베이스에 없는 사람의 소득 계층을 분류하는 데 적절하다고 가정합니다. 이 작업은 분류 작업입니다. 데이터 마이닝 방법 및 기술에 매우 적합합니다.

알고리즘은 대략 다음과 같이 진행됩니다. 먼저 예측 변수와 (이전에 분류된) 목표 변수인 소득 계층을 모두 포함하는 데이터 세트를 고려하십시오.

이 방법에서 알고리즘은 어떤 변수 조합이 어떤 소득 계층과 관련되어 있는지 이해합니다. 예를 들어, 나이든 여성은 고소득 계층과 관련이 있을 수 있습니다. 이 데이터 세트를 훈련 세트라고 합니다.

비즈니스 및 연구에서 분류 작업의 예는 다음과 같습니다. -

  • 특정 신용 카드 거래가 사기인지 여부를 결정할 수 있습니다.

  • 특정 요구 사항에 대한 특정 트랙에서 새 후보자를 찾을 수 있습니다.

  • 모기지 소프트웨어가 신용 위험이 좋은지 나쁜지 확인하는 데 사용할 수 있습니다.

  • 특정 질병이 디스플레이인지 여부를 조사할 수 있습니다.

  • 특정 재정적 또는 개인적 행동이 잠재적 테러 위협을 나타내는지 여부를 결정할 수 있습니다.

예측

예측은 분류와 동일하지만 예측의 경우 향후 결과가 잘못 표시됩니다.

비즈니스 및 연구에서 예측 작업의 예는 다음과 같습니다. -

  • 3개월 후의 주식 가치를 예측할 수 있습니다.

  • 제한속도를 올리면 내년 교통사고 사망자 증가율을 예측할 수 있다.

  • 팀 통계의 유사성에 따라 올 가을 야구 월드시리즈의 승자를 예측할 수 있다.

  • 신약 개발의 특정 분자가 제약 회사를 위한 수익성 있는 신약 개발을 시작할지 여부를 예측할 수 있습니다.