빈번한 항목 집합을 마이닝하는 작업은 무엇입니까?

<시간/>

데이터 마이닝은 통계 및 수치 기법을 포함한 패턴 인식 기술을 사용하여 리포지토리에 저장된 많은 양의 레코드를 전송하여 유용한 새로운 상관 관계, 패턴 및 추세를 발견하는 단계입니다. 의심하지 않은 관계를 발견하고 데이터 소유자에게 논리적이고 도움이 되는 새로운 방법으로 기록을 요약하기 위한 사실 데이터 세트의 분석입니다.

데이터베이스 소유자에게 명확하고 유익한 결과를 얻기 위해 처음에는 알려지지 않은 규칙성 또는 관계를 찾기 위해 다량의 정보를 선택, 탐색 및 모델링하는 절차입니다.

데이터 마이닝은 데이터 과학과 유사합니다. 특정 상황에서 특정 데이터 세트에 대해 목적을 가진 사람이 수행합니다. 이 단계에는 텍스트 마이닝, 웹 마이닝, 오디오 및 비디오 마이닝, 설명 데이터 마이닝, 소셜 미디어 마이닝을 비롯한 여러 유형의 기능이 포함됩니다. 단순하거나 매우 구체적인 소프트웨어를 통해 완료됩니다.

데이터 마이닝을 아웃소싱함으로써 낮은 운영 비용으로 모든 작업을 더 빠르게 수행할 수 있습니다. 특정 회사는 새로운 기술을 사용하여 수동으로 찾을 수 없는 데이터를 저장할 수도 있습니다. 여러 플랫폼에서 사용할 수 있는 수많은 데이터가 있지만 액세스할 수 있는 지식은 매우 제한적입니다.

주요 과제는 문제를 해결하거나 회사 발전에 사용할 수 있는 필수 데이터를 추출하기 위해 데이터를 분석하는 것입니다. 데이터를 마이닝하고 더 나은 판단을 찾는 데 사용할 수 있는 동적 도구와 기술이 많이 있습니다.

다차원 공간에서 정보의 희소성으로 인해 낮거나 원시적인 추상화 방법에서는 데이터 항목 간의 강한 관계를 찾기 어렵기 때문에 빈번한 항목 집합을 마이닝하는 기능이 복잡합니다.

강한 연관성은 상식적인 지식을 나타낼 수 있는 높은 개념 수준에서 발견되지만 한 사용자에게 상식을 나타낼 수 있는 것이 다른 사용자에게는 새 것처럼 보일 수 있습니다. 따라서 데이터 마이닝은 여러 추상화 수준에서 연관 규칙을 마이닝하고 여러 추상화 공간 사이를 단순히 통과할 수 있는 가능성을 제공해야 합니다.

빈번한 아이템 집합의 채굴이 어려운 이유는 다음과 같습니다.

연관 규칙을 생성하는 데 필요한 계산은 고려 중인 항목의 수와 규칙의 복잡성에 따라 기하급수적으로 증가합니다.
항목은 제품 유형을 포함하여 식별하는 기능 하나를 제외하고는 동일한 것으로 간주됩니다. 모든 문제가 이 설명에 적합한 것은 아닙니다.
가장 어려운 작업은 분석에 사용할 올바른 항목 집합을 결정하는 것입니다. 항목을 일반화하면 분석에 사용된 항목의 빈도가 거의 동일하다는 것을 확인할 수 있습니다.
아주 적은 트랜잭션에서 거의 발생하지 않는 항목이 있는 경우 연관 규칙을 생성하기가 어렵습니다.