Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

데이터 마이닝의 기본 개념은 무엇입니까?

<시간/>

데이터 마이닝은 통계 및 수학적 기법을 포함한 패턴 인식 기술을 사용하여 저장소에 저장된 많은 양의 데이터를 전송하여 유용한 새로운 상관 관계, 패턴 및 추세를 찾는 프로세스입니다. 의심하지 않은 관계를 발견하고 데이터 소유자에게 논리적이고 도움이 되는 새로운 방법으로 기록을 요약하기 위한 사실 데이터 세트의 분석입니다.

다음과 같은 다양한 데이터 마이닝 개념이 있습니다. -

분류 - 분류는 클래스 레이블이 익명인 객체의 클래스를 예측하기 위해 모델을 사용할 수 있도록 하기 위해 데이터 클래스 또는 개념을 표현하고 구별하는 모델을 발견하는 절차입니다. 파생된 모델은 훈련 기록 그룹의 분석을 기반으로 합니다(즉, 클래스 레이블이 익숙한 데이터 개체).

예측 − 예측은 분류와 동일하지만 예측의 경우 향후 결과가 잘못 표시됩니다.

비즈니스 및 연구에서 예측 기능의 예는 다음과 같습니다. -

  • 3개월 후의 주식 가치를 예측할 수 있습니다.

  • 제한속도를 올리면 내년 교통사고 사망자 증가율을 예측할 수 있다.

  • 팀 통계의 대응을 기반으로 올 가을 야구 월드 시리즈의 승자를 예측할 수 있습니다.

  • 신약 개발의 확실한 분자가 제약 회사의 비용 효율적인 신약을 시작할지 여부를 예측할 수 있습니다.

협회 규칙 및 추천 시스템 − 연관 규칙 또는 선호도 분석은 대규모 데이터베이스의 항목 간의 일반적인 연관 패턴을 찾기 위해 설계되었습니다. 규칙은 여러 가지 방법으로 사용할 수 있습니다. 예를 들어 식료품점에서는 이러한 정보를 제품 배치에 사용할 수 있습니다.

주간 판촉 행사 또는 제품 번들에 대한 규칙을 사용할 수 있습니다. 연속 입원 중 환자의 증상에 대한 병원 데이터베이스에서 파생된 연관 규칙은 "어떤 증상 다음에 어떤 다른 증상이 오는지"를 찾는 데 도움이 되어 재방문 환자의 향후 증상을 예측하는 데 도움이 될 수 있습니다.

데이터 감소 − 방대한 양의 데이터베이스에서 선택된 데이터에 대해 데이터 마이닝을 사용합니다. 방대한 양의 레코드에 대한 데이터 분석 및 마이닝이 완료되면 처리하는 데 매우 많은 시간이 소요되어 불가능하고 실행 불가능하게 됩니다.

데이터 분석을 위한 처리 시간을 단축할 수 있으며, 데이터 축소 기술은 원본 데이터의 무결성을 유지함으로써 볼륨이 훨씬 작은 데이터 세트의 축소된 표현을 얻는 데 사용됩니다. 데이터를 줄임으로써 동일한 분석 결과를 생성하는 데이터 마이닝 프로세스의 효율성이 향상됩니다.

데이터 축소는 더 간결하게 정의하는 것을 목표로 합니다. 데이터 크기가 작을수록 성숙하고 계산적으로 고비용 알고리즘을 사용하는 것이 더 쉽습니다. 데이터의 감소는 행 수(레코드) 또는 열 수(차원)로 표시될 수 있습니다.