데이터 이상 인식을 지원하기 위해 예외 지표로 세 가지 측정값이 사용됩니다. 이 측정값은 예상 값과 관련하여 세포의 양이 영향을 미치는 놀라움의 정도를 나타냅니다. 측정값은 모든 집계 수준에 대해 계산되고 모든 셀과 연결됩니다. SelfExp, InExp 및 PathExp 측정을 포함하여 다음과 같습니다. 테이블 분석을 위한 수치적 접근 방식을 기반으로 합니다. 셀 값은 예외로 처리되며, 예상 값은 통계 모델로 결정되는 예상 값과 얼마나 다른지에 따라 다릅니다. 주어진 셀 값과 예상 값 사이의 차이를 잔차라고 합니다. 직관적으
차원의 저주와 이해할 수 있는 결과에 대한 필요성은 큐브그레이드 문제에 대한 효율적이고 확장 가능한 솔루션을 찾는 데 심각한 문제를 제기합니다. 제한된 다차원 기울기 분석이라고 하는 제한적이지만 흥미로운 큐브그레이드 문제 버전입니다. 검색 공간을 줄이고 흥미로운 결과를 얻을 수 있습니다. 다음과 같은 제약 조건 유형이 있습니다. - 중요성 제약 - 이것은 최소한 정의된 수의 기본 셀 또는 최소한 특정 총 매출을 포함하는 것을 포함하여 데이터에서 특정 통계적 유의성을 갖는 셀만을 테스트할 수 있음을 제공합니다. 데이터 큐브 컨
데이터 일반화는 상대적으로 낮은 수준의 값(예:속성 연령에 대한 숫자 값)을 높은 수준의 개념(예:젊은, 중년 및 노인)으로 대체하여 데이터를 요약합니다. 데이터베이스에 저장된 많은 양의 데이터를 감안할 때, 추상화의 일반화된(낮은 것이 아니라) 방법에서 간결하고 간결한 용어로 개념을 정의할 수 있는 것이 좋습니다. 여러 추상화 수준에서 데이터 집합을 일반화할 수 있으므로 사용자가 데이터의 일반적인 동작을 쉽게 검사할 수 있습니다. 예를 들어 AllElectronics 데이터베이스가 주어지면 단일 고객 거래를 조사하는 것보다 영업
AOI는 Attribute-Oriented Induction의 약자입니다. 개념 설명에 대한 속성 지향 유도 접근 방식은 데이터 큐브 접근 방식이 도입되기 몇 년 전인 1989년에 처음 제안되었습니다. 데이터 큐브 접근 방식은 기본적으로 데이터 웨어하우스에서 미리 계산된 데이터의 구체화된 보기를 기반으로 합니다. 일반적으로 OLAP 또는 데이터 마이닝 쿼리가 처리를 위해 제출되기 전에 오프라인 집계를 구현합니다. 즉, 속성 지향 유도 접근 방식은 일반적으로 쿼리 지향, 일반화 기반 온라인 데이터 분석 방법입니다. 속성 지향 유도
속성 일반화는 다음 규칙에 따라 달라집니다. 원래 작업 관계에 속성에 대한 고유한 값의 거대한 컬렉션이 있고 속성에 일반화 연산자 그룹이 있는 경우 일반화 연산자를 선택하여 속성에 활용해야 합니다. . 이 규칙은 다음 추론에 따라 다릅니다. 작업 관계에서 튜플 또는 규칙 내부의 속성 값을 일반화하기 위해 일반화 서비스를 사용하면 더 많은 초기 데이터 튜플을 포함하는 규칙이 생성되어 정의된 개념을 일반화합니다. 이는 인스턴스의 지식에서 일반화 트리를 오르거나 개념 트리 상승으로 정의된 일반화 규칙에 해당합니다. 포함된 속성 또는
대상 클래스를 대조 클래스에서 분류하는 클래스 구별 또는 비교 광산 특성화. 대상 및 대조 클래스는 동일한 차원 및 속성을 공유하는 경우 비교 가능해야 합니다. 예를 들어, 사람, 주소 및 요소의 세 가지 클래스는 비교할 수 없습니다. 그러나 지난 3년 동안의 매출은 비슷한 수준이며 컴퓨터 공학 후보자와 물리학 후보자도 마찬가지입니다. 개발된 기술은 여러 비교 가능한 클래스 간의 클래스 비교를 계속 관리할 수 있습니다. 예를 들어, 클래스 특성화를 위해 정의된 속성 일반화 프로세스는 일반화가 비교되는 모든 클래스 간에 동기적으로
다음과 같은 빈번한 패턴 마이닝의 몇 가지 기준이 있습니다 - 채굴할 패턴의 완성도 기반 − 최소 지원 임계값을 제공하는 빈도 항목 집합, 폐쇄 빈도 항목 집합 및 최대 빈도 항목 집합의 전체 컬렉션을 마이닝할 수 있습니다. 또한 제한된 빈도 항목 집합(사용자 정의 제약 조건의 집합을 만족할 수 있음), 근사 빈도 항목 집합(채굴된 빈도 항목 집합에 대한 대략적인 지원 개수만 변경할 수 있음), 근접 일치 빈도 항목 집합(지원 개수를 계산할 수 있음)을 추출할 수 있습니다. 상대적으로 일치하는 항목 집합 중), top-k 빈도
Apriori는 1994년에 R. Agrawal과 R. Srikant가 개발한 중요한 알고리즘으로 부울 연관 규칙에 대한 빈번한 항목 집합을 생성합니다. 알고리즘은 알고리즘이 빈번한 항목 집합 속성에 대한 사전 지식이 필요한 경우에 따라 다릅니다. Apriori는 k-항목 집합이 (k+1)-항목 집합을 탐색할 수 있는 수준별 검색이라는 반복적인 방법을 사용합니다. 먼저, 데이터베이스를 탐색하여 각 항목의 개수를 수집하고 최소 지원을 충족하는 항목을 수신하여 빈번한 1-itemset 집합을 검색합니다. 결과 집합은 L1로 표시됩니다
웹 마이닝은 웹 기반 기록 및 서비스, 서버 로그, 및 하이퍼링크. 웹 마이닝은 중요한 통찰력을 얻기 위해 데이터를 그룹화하고 분석하여 웹 정보에서 디자인을 발견하는 것을 목표로 합니다. 웹 마이닝은 적응된 데이터 마이닝 방법을 웹에 적용하는 것으로 널리 볼 수 있는 반면, 데이터 마이닝은 지식 발견 프로세스에 고정된 대부분의 구조화된 데이터에서 패턴을 찾기 위한 알고리즘의 적용으로 표현됩니다. 웹 마이닝의 다양한 응용 프로그램은 다음과 같습니다 - 웹 마이닝은 사용자가 웹사이트를 탐색하는 방법을 발견하는 데 사용되며 그 결
공간 데이터 마이닝은 데이터 마이닝을 공간 모델에 적용하는 것입니다. 공간 데이터 마이닝에서 분석가는 지리 또는 공간 데이터를 사용하여 비즈니스 인텔리전스 또는 다른 결과를 만듭니다. 이를 위해서는 지리적 데이터를 관련성 있고 유익한 형식으로 가져오기 위한 특정 방법과 리소스가 필요했습니다. 공간 데이터 마이닝과 관련된 몇 가지 문제에는 패턴 인식 또는 연구 프로젝트를 이끄는 질문과 관련된 개체 발견이 포함됩니다. 분석가는 GIS/GPS 도구 또는 유사한 시스템을 사용하여 관련 데이터만 검색하기 위해 대규모 데이터베이스 영역 또는
클러스터 분석은 수년 동안 널리 연구되어 온 통계의 한 분야입니다. 이 기술을 사용하는 이점은 개념 계층과 같은 배경 지식을 활용하지 않고도 데이터에서 흥미로운 구조 또는 클러스터를 직접 발견할 수 있다는 것입니다. PAM 또는 CLARA와 같은 통계에 사용되는 클러스터링 알고리즘은 계산 복잡성 관점에서 비효율적인 것으로 보고됩니다. 효율성 문제에 따라 클러스터 분석을 위해 CLARANS(무작위 검색 기반 클러스터링 대형 애플리케이션)라는 새로운 알고리즘이 개발되었습니다. PAM(메도이드 주변 분할) − n개의 객체가 있다고 가
시간 데이터 마이닝은 대규모 시간 데이터 집합에서 중요하지 않고 암시적이며 잠재적으로 필수적인 데이터를 추출하는 프로세스를 정의합니다. 시간 데이터는 일련의 기본 데이터 유형이며 일반적으로 숫자 값이며 시간 데이터에서 유익한 지식을 수집합니다. 시간적 데이터 마이닝의 목적은 시간적 시퀀스라고 하는 알파벳의 명목 기호 시퀀스와 연속적인 실수 시퀀스로 구성된 상위 시퀀스 데이터에서 시간적 패턴, 예상치 못한 경향 또는 여러 숨겨진 관계를 찾는 것입니다. 기계 학습, 통계 및 데이터베이스 기술의 일련의 접근 방식을 활용하여 시계열이라고
경향 분석은 노이즈에 의해 약간 또는 완전히 숨겨질 수 있는 시계열에서 행동 모델을 추출하는 기술을 정의합니다. 추세 분석 방법은 일반적으로 발병 및 질병 출현의 예상치 못한 증가 또는 감소 감지, 질병 추세 모니터링, 질병 관리 프로그램 및 정책의 효율성 평가, 의료 프로그램 및 정책의 성공 평가 등에 사용되었습니다. 다양한 기술을 사용하여 항목 시리즈의 추세를 감지할 수 있습니다. 평활화는 시계열에서 발견되는 비체계적인 동작을 제거하는 데 사용되는 접근 방식입니다. 평활화는 일반적으로 특정 시점 주변의 시간 창에서 속성 값의
속성 하위 집합 선택은 관련이 없거나 중복되는 속성(또는 차원)을 제거하여 데이터 세트 크기를 줄입니다. 속성 하위 집합 선택의 목적은 데이터 클래스의 후속 확률 분포가 모든 속성을 사용하여 얻은 원래 분포에 가능한 한 근접하도록 속성의 최소 집합을 발견하는 것입니다. n개의 속성에 대해 2n개의 가능한 하위 집합이 있습니다. 속성의 최적 하위 집합에 대한 철저한 검색은 특히 n과 데이터 클래스 수가 증가함에 따라 매우 비용이 많이 들 수 있습니다. 따라서 감소된 검색 공간을 탐색하는 발견적 접근 방식은 일반적으로 속성 하위 집합
이 유틸리티는 웨이블릿 변환 데이터가 제한될 수 있다는 사실에 있습니다. 정보의 압축된 근사값은 웨이블릿 계수의 원리 중 작은 부분만 저장하여 유지할 수 있습니다. 예를 들어, 일부 사용자 정의 임계값보다 높은 모든 웨이블릿 계수가 유지될 수 있습니다. 일부 다른 계수는 0으로 설정됩니다. 결과 데이터 설명은 매우 희소하므로 데이터 희소성을 활용할 수 있는 서비스는 웨이블릿 공간에서 구현되는 경우 계산적으로 매우 빠릅니다. 이 방법은 또한 데이터의 주요 특성을 매끄럽게 하지 않고 노이즈를 제거하여 데이터 정리에도 효율적으로 만듭니
엔트로피 기반 이산화는 감독된 하향식 분할 접근 방식입니다. 분할점(분리 속성 범위를 위한 데이터 값)의 계산 및 보존에서 클래스 분포 데이터를 탐색합니다. 통계적 속성 A를 이산화할 수 있으며, 이 방법은 최소 엔트로피를 갖는 A 값을 분할점으로 선택하고 결과 간격을 재귀적으로 분할하여 계층적 이산화에 나타날 수 있습니다. 특정 이산화는 A에 대한 개념 계층을 형성합니다. D는 속성 그룹과 클래스 레이블 속성으로 설명되는 데이터 튜플을 포함합니다. class-label 속성은 튜플당 클래스 데이터를 지원합니다. 집합 내 속성 A
측정은 분배, 대수 및 전체론을 포함한 세 가지 요소로 구성될 수 있습니다. 사용되는 집계 함수의 유형에 따라 다릅니다. 분배 − 집계 함수는 다음과 같이 전달 방식으로 계산할 수 있는 경우 분배적입니다. 데이터가 n개의 집합으로 독립적이라고 가정합니다. 각 파티션에 서비스를 사용할 수 있으므로 n개의 집계 값이 생성됩니다. 함수를 사용하여 n개의 집계 값으로 변경한 결과가 전체 데이터 집합에 대해 함수를 사용하여 파생된 결과(파티셔닝 없이)와 동일하면 함수를 분산 방식으로 평가할 수 있습니다. 예를 들어, count()는 먼
데이터 웨어하우징은 비즈니스에 중요한 비즈니스 통찰력을 제공하기 위해 여러 소스에서 데이터를 수집하고 처리할 수 있는 접근 방식입니다. 데이터 웨어하우스는 지원 관리 결정의 목표를 위해 특별히 만들어졌습니다. 간단히 말해서 데이터 웨어하우스는 조직의 운영 데이터베이스와 독립적으로 유지 관리되는 데이터베이스를 정의합니다. 데이터 웨어하우스 시스템은 여러 애플리케이션 시스템의 통합을 가능하게 합니다. 분석을 위해 통합된 과거 데이터의 견고한 플랫폼을 지원하여 데이터 처리를 제공합니다. 데이터 웨어하우스는 OLTP 데이터베이스가 레코
데이터 웨어하우징은 비즈니스에 의미 있는 비즈니스 통찰력을 제공하기 위해 여러 소스에서 데이터를 수집하고 처리할 수 있는 접근 방식입니다. 데이터 웨어하우스는 관리 결정을 지원하도록 특별히 설계되었습니다. 간단히 말해서 데이터 웨어하우스는 조직의 운영 데이터베이스와 독립적으로 유지 관리되는 데이터베이스를 정의합니다. 데이터 웨어하우스 시스템은 여러 애플리케이션 시스템의 통합을 가능하게 합니다. 분석을 위한 통합된 과거 정보의 견고한 플랫폼을 제공하여 데이터 처리를 제공합니다. 데이터 웨어하우스는 다차원 공간에서 데이터를 일반화하
백업 및 복구는 손실 방식으로 레코드를 백업하고 데이터 손실로 인해 해당 데이터를 복구할 수 있는 시스템을 설정하는 프로세스를 정의합니다. 데이터를 백업하는 데 필요한 컴퓨터 정보의 복사 및 보관은 데이터가 삭제되거나 훼손된 경우에 적용됩니다. 백업의 목표는 기본 데이터 오류가 발생한 경우 갱신할 수 있는 데이터 복사본을 만드는 것입니다. 주요 데이터 오류는 하드웨어 또는 소프트웨어 오류, 데이터 손상 또는 악의적인 공격(바이러스 또는 맬웨어) 또는 우발적인 정보 제거를 포함하여 사람이 유발한 이벤트의 결과일 수 있습니다. 백업