KDD는 데이터베이스의 지식 발견을 나타냅니다. 데이터에서 지식을 발견하는 광범위한 프로세스를 정의하고 명확한 데이터 마이닝 기술의 상위 수준 응용 프로그램을 강조합니다. 인공 지능, 머신 러닝, 패턴 인식, 데이터베이스, 통계, 전문 시스템을 위한 지식 습득, 데이터 시각화 등 여러 분야의 연구자들이 관심을 갖고 있는 분야입니다.
지식 발견 프로세스는 9단계를 포함하는 반복적이고 상호작용적입니다. 이 프로세스는 모든 단계에서 반복되므로 이전 작업으로 다시 변환해야 할 수 있습니다. 이 프로세스에는 하나의 공식을 제시하거나 각 단계 및 응용 프로그램 유형에 대한 올바른 결정을 위한 완전한 과학적 분류를 생성할 수 없다는 점에서 여러 가지 상상력이 풍부한 방법이 있습니다. 따라서 각 단계의 프로세스와 여러 요구 사항 및 가능성을 이해하는 것이 필요합니다.
-
이해 개발 - 기본적인 예비 단계입니다. 변환, 알고리즘, 표현 등과 같은 여러 결정으로 수행되어야 하는 작업을 학습하는 장면을 만듭니다. KDD 벤처를 담당하는 개인은 최종 사용자 및 환경의 목표를 학습하고 특성화해야 합니다. 지식 발견 프로세스가 나타날 것입니다(관련 사전 지식 포함).
-
대상 데이터 세트 만들기 − 발견이 구현될 데이터 세트를 선택하거나 변수 또는 데이터 샘플의 하위 집합을 대상으로 할 수 있습니다. 데이터 마이닝은 액세스 가능한 데이터에서 학습하고 찾기 때문에 이 프로세스는 필수적입니다. 이것은 모델을 구축하기 위한 증거 기반입니다. 일부 중요한 속성이 누락된 경우 그 시점에서 전체 연구가 실패할 수 있으므로 더 많은 속성이 고려됩니다.
-
데이터 정리 및 사전 처리 − 데이터 정리는 누락된 값을 채우고, 잡음이 있는 데이터를 평활화하고, 이상값을 식별 및 제거하고, 데이터의 불일치를 제거하여 데이터를 정리하는 것을 정의합니다.
-
탐색적 분석 및 모델 및 가설 선택 − 데이터 마이닝 알고리즘을 선택하고 데이터 패턴을 검색하는 데 사용할 방법을 선택할 수 있습니다. 이 프로세스에는 적절할 수 있는 모델 및 매개변수를 결정하고 특정 데이터 마이닝 방법을 KDD 프로세스의 장기 기준과 일치시키는 작업이 포함됩니다.
-
데이터 마이닝 − 분류 규칙 또는 트리, 회귀 및 클러스터링을 포함하는 특정 표현 형식 또는 그러한 표현 세트에서 관심 패턴을 검색하는 데 사용됩니다. 사용자는 앞의 단계를 올바르게 구현하여 데이터 마이닝 방법을 크게 도울 수 있습니다.
-
발견된 지식에 대한 조치 − 추가 조치를 위해 다른 시스템에 지식을 포함하여 지식을 직접 사용하거나 단순히 문서화하여 이해 당사자에게 보고하는 것입니다. 이 프로세스에는 또한 이전에 수락된(또는 추출된) 지식과의 잠재적인 충돌을 확인하고 해결하는 작업이 포함됩니다.