Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

데이터 마이닝의 문제점은 무엇입니까?

<시간/>

다음과 같은 데이터 마이닝의 다양한 과제가 있습니다 -

데이터 마이닝 알고리즘의 효율성 및 확장성 − 데이터베이스의 많은 양의 데이터에서 데이터를 효과적으로 추출할 수 있으므로 지식 발견 알고리즘은 효율적이고 거대한 데이터베이스로 확장 가능해야 합니다. 특히 데이터 마이닝 알고리즘의 실행 시간은 거대한 데이터베이스에서 예측 가능하고 수용 가능해야 합니다. 지수 또는 채널 차수 다항식 복잡성이 있는 알고리즘은 효율적으로 사용되지 않습니다.

데이터 마이닝 결과의 유용성, 확실성 및 표현력 − 식별된 지식은 데이터베이스의 내용을 정확하게 묘사해야 하며 특정 응용 프로그램에 유용해야 합니다. 불완전성은 대략적인 규칙이나 양적 규칙의 형태로 불확실성의 척도로 정의되어야 합니다.

노이즈와 예외적인 데이터는 데이터 마이닝 시스템에서 우아하게 관리되어야 합니다. 이것은 또한 통계적, 분석적, 시뮬레이션적 모델 및 도구의 개발을 통해 발견된 지식의 질(예:흥미도 및 신뢰성)을 측정하는 체계적인 연구를 촉진합니다.

다양한 종류의 데이터 마이닝 결과 표현 − 방대한 양의 데이터에서 여러 종류의 지식을 발견할 수 있습니다. 또한 여러 보기에서 발견된 지식을 검토하고 다양한 형식으로 표시할 수 있습니다.

이를 위해서는 데이터 마이닝 요청과 발견된 지식을 고급 언어 또는 그래픽 사용자 인터페이스로 정의해야 데이터 마이닝 작업을 비전문가가 정의할 수 있고 발견된 지식을 사용자가 이해할 수 있고 정확하게 사용할 수 있습니다. 이를 위해서는 표현적 지식 표현 기법을 선택하기 위한 발견 시스템도 필요했습니다.

여러 추상화 수준의 대화형 마이닝 지식 − 데이터베이스에서 정확히 무엇을 발견할 수 있는지 예측하는 것은 복잡하기 때문에 높은 수준의 데이터 마이닝 쿼리는 추가 탐색을 위해 흥미로운 추적을 공개할 수 있는 프로브로 간주되어야 합니다.

사용자가 데이터 마이닝 요청을 대화식으로 구체화하고, 데이터 초점을 동적으로 변경하고, 데이터 마이닝 프로세스를 점진적으로 심화하고, 여러 추상화 수준과 여러 각도에서 정보 및 데이터 마이닝 결과를 유연하게 볼 수 있도록 하는 대화식 검색이 권장되어야 합니다.

다양한 데이터 소스에서 정보 마이닝 − 인터넷과 같이 광범위하게 사용 가능한 근거리 및 광역 컴퓨터 네트워크이며 다양한 데이터 소스를 연결하고 거대한 분산 이기종 데이터베이스를 형성할 수 있습니다. 다양한 데이터 의미 체계를 가진 형식이 지정되거나 형식이 지정되지 않은 정보의 여러 소스에서 지식을 마이닝하는 것은 데이터 마이닝에 대한 새로운 요구 사항을 제시합니다.

그렇지 않으면 데이터 마이닝은 단순한 쿼리 시스템으로는 거의 발견할 수 없는 이기종 데이터베이스의 높은 수준의 데이터 규칙성을 공개하는 데 도움이 될 수 있습니다. 또한 데이터베이스의 거대한 크기, 데이터의 광범위한 분포, 여러 데이터 마이닝 방법의 계산 복잡성은 병렬 및 분산 데이터 마이닝 알고리즘의 발전을 촉진합니다.