정보 처리, 분석 처리 및 데이터 마이닝과 같은 세 가지 종류의 데이터 웨어하우스 응용 프로그램이 있습니다. 정보 처리 − 교차 분석, 테이블, 차트 또는 그래프를 사용하여 쿼리, 기본 수치 분석 및 문서화를 제공합니다. 데이터 웨어하우스 데이터 처리의 최신 트렌드는 웹 브라우저와 통합되는 저렴한 웹 기반 액세스 도구를 만드는 것입니다. 분석 처리 − 슬라이스 앤 다이스, 드릴다운, 롤업 및 피벗과 같은 기본 OLAP 작업을 제공합니다. 일반적으로 요약 및 자세한 형식의 역사적 정보에 대해 작동합니다. 정보처리에 대한 온라인 분
다음은 다음과 같은 데이터 큐브의 효율적인 계산을 위한 일반적인 최적화 기술입니다. - 정렬, 해싱 및 그룹화 − 관련 튜플을 재정렬하고 클러스터링하려면 차원 속성에 정렬, 해싱 및 그룹화 작업을 사용해야 합니다. 큐브 계산에서 집계는 유사한 차원 값 집합을 공유하는 튜플에서 구현됩니다. 따라서 이러한 집계의 평가를 지원하기 위해 이러한 데이터에 액세스하고 그룹화하기 위해 정렬, 해싱 및 그룹화 서비스를 분석하는 것이 필수적입니다. 지점별, 요일별, 품목별 총매출액을 계산할 수 있습니다. 튜플이나 셀을 분기별로, 따라서 일별로
다음과 같은 패턴 마이닝의 다양한 응용 프로그램이 있습니다 - 패턴 마이닝은 일반적으로 여러 데이터 집약적 애플리케이션에서 전처리로 노이즈 필터링 및 데이터 정리에 사용됩니다. 예를 들어 수만 가지 차원(예:유전자 설명)을 포함하는 마이크로어레이 데이터를 탐색하는 데 사용할 수 있습니다. 패턴 마이닝은 데이터에 숨겨진 고유 메커니즘 및 클러스터의 발견을 제공합니다. 예를 들어, DBLP 데이터 세트가 주어지면 빈번한 패턴 마이닝은 공동 저자 클러스터(일반적으로 협업하는 저자를 결정함으로써) 및 회의 클러스터(여러 저자 및 용어의
PBC(Perception-Based Classification)는 다차원 시각화 방법을 기반으로 하는 대화형 방법이며 사용자가 의사결정 트리를 구성할 때 데이터에 대한 배경 지식을 통합할 수 있도록 합니다. 데이터와 광학적으로 상호 작용함으로써 사용자는 데이터에 대한 더 깊은 학습을 생성할 수 있습니다. 결과 트리는 전통적인 의사 결정 트리 유도 기술을 사용하는 구성보다 작을 가능성이 높으므로 해석이 더 간단하면서도 비슷한 정확도를 달성합니다. PBC는 클래스 레이블 데이터와 함께 다차원 데이터를 고려하기 위해 픽셀 지향 방법
순진한 베이지안 분류기는 클래스 조건부 독립성을 가정합니다. 즉, 튜플의 클래스 레이블이 주어지면 속성 값이 조건부로 서로 독립적인 것으로 가정됩니다. 이것은 계산을 단순화합니다. 가정 영향이 참일 때 순진한 베이지안 분류기가 여러 분류기에 비해 효율적입니다. 베이지안 믿음 네트워크는 공동 조건부 확률 분포를 정의합니다. 변수의 하위 집합 간에 클래스 조건부 독립성을 나타낼 수 있습니다. 학습이 구현될 수 있는 인과 관계의 그래픽 구조를 지원합니다. 훈련된 베이지안 믿음 네트워크는 분류에 사용됩니다. 베이지안 믿음 네트워크는 믿
능동 학습은 데이터가 충분하지만 클래스 레이블이 부족하거나 획득하는 데 비용이 많이 드는 상황과 관련된 반복적인 유형의 지도 학습입니다. 학습 알고리즘은 레이블에 대해 사용자(예:개인 신탁)를 주의 깊게 쿼리할 수 있다는 점에서 활성입니다. 개념을 이해하는 데 사용되는 여러 튜플 이 방법은 일반적인 지도 학습에 필요한 수보다 작습니다. 비용을 낮추는 데 사용되며 가능한 한 적은 수의 레이블이 지정된 예제를 사용하여 높은 정확도를 달성하는 능동적 학습자 목표입니다. D를 고려 중인 모든 데이터라고 하자. D에 대한 적극적인 학습을
부분 공간 검색 기술, 상관 기반 클러스터링 기술 및 바이클러스터링 기술을 포함하여 여러 가지 방법이 세 가지 주요 그룹으로 분류되었습니다. 부분공간 검색 기술 - 부분공간 검색 방법은 클러스터에 대해 여러 부분공간을 검색합니다. 따라서 클러스터는 부분 공간에서 서로 동일한 개체의 하위 집합입니다. 유사성은 거리 또는 밀도를 포함한 기존 측정값에 의해 획득됩니다. 예를 들어 CLIQUE 알고리즘은 부분 공간 클러스터링 기술입니다. 차원 증가 시리즈에서 해당 부분 공간의 부분 공간과 클러스터를 지정할 수 있으며 반단조성을 사용하여 클
이분 그래프에서 꼭짓점은 두 개의 분리된 집합으로 분할되어 각 모서리가 한 집합의 꼭짓점을 여러 집합의 꼭짓점에 연결하도록 할 수 있습니다. AllElectronics 사용자 구매 데이터의 경우 정점 세트 하나가 정점당 사용자 한 명으로 사용자를 정의합니다. 다중 세트는 정점당 하나의 제품으로 제품을 정의합니다. 에지는 사용자를 제품에 연결하여 사용자의 제품 구매를 정의합니다. 다음과 같은 Bipartite 그래프의 다양한 응용 프로그램이 있습니다 - 웹 검색 엔진 − 웹 검색 엔진에서 검색 로그는 데이터 사용자 쿼리 및 해당
허브는 기관에 대한 링크 집합을 지원하는 웹 페이지 집합입니다. 허브 페이지는 눈에 띄지 않거나 이를 가리키는 링크가 있을 수 있습니다. 그러나 일반적인 주제에 대한 주요 사이트 집합에 대한 링크는 지원합니다. 이러한 페이지는 코스 홈 페이지의 추천 참조 사이트를 포함하여 단일 홈 페이지의 권장 연결 목록이거나 상업 사이트의 전문적으로 대량 리소스 문서일 수 있습니다. 허브 페이지는 대상 주제에 대해 암시적으로 권한을 부여하는 데 필수적인 역할을 합니다. 일반적으로 좋은 허브는 여러 좋은 기관을 가리키는 페이지입니다. 좋은 권한
웹 사용 마이닝은 웹로그 데이터에서 유용한 데이터, 정보, 지식을 도출하는 데 사용되며 웹 페이지에 대한 사용자 액세스 디자인을 식별하는 데 도움이 됩니다. 웹 자원의 관리인 마이닝에서 개인은 웹 서버 로그로 구성된 웹사이트 방문자의 요청 데이터에 대해 생각하고 있습니다. 웹 페이지 세트의 콘텐츠와 메커니즘은 페이지 작성자의 의도를 따르지만 단일 요청은 사용자가 이러한 페이지를 보는 방식을 보여줍니다. 웹 사용 마이닝은 페이지 디자이너가 제안하지 않은 관계를 공개할 수 있습니다. 웹 서버는 일반적으로 웹 페이지에 액세스할 때마다
데이터 마이닝의 기초에는 다음과 같은 몇 가지 이론이 있습니다. - 데이터 축소 − 이 이론에서 데이터 마이닝의 기본은 데이터 표현을 줄이는 것입니다. 데이터 축소는 거대한 데이터베이스에 대한 쿼리에 대한 대략적인 답변을 빠르게 얻어야 하는 필요성에 대한 응답으로 속도에 대한 확실성을 교환합니다. 데이터 축소 방법에는 특이값 분해(주성분 분석의 원동력), 웨이블릿, 회귀, 로그 선형 모델, 히스토그램, 클러스터링, 샘플링 및 인덱스 트리 개발이 포함됩니다. 데이터 압축 − 이 이론에 따르면 데이터 마이닝의 기본은 주어진 정보를
시각적 데이터 마이닝은 데이터 및 지식 시각화 방법을 사용하여 방대한 데이터 세트에서 암시적이고 유익한 지식을 찾습니다. 인간의 시각 시스템은 눈과 뇌에 의해 관리되며, 그 중 후자는 거대한 지식 기반을 포함하는 동적이고 대체로 병렬 처리 및 추론 엔진으로 생각할 수 있습니다. 시각적 데이터 마이닝은 데이터 시각화 및 데이터 마이닝과 같은 두 가지 분야의 통합으로 간주될 수 있습니다. 또한 컴퓨터 그래픽, 멀티미디어 시스템, 인간 컴퓨터 상호 작용, 패턴 식별 및 고성능 컴퓨팅과 관련될 수 있습니다. 일반적으로 데이터 시각화 및
한 가지 솔루션은 그러한 회사가 소비자에게 다음과 같은 개인 정보 사용에 대한 제한 사항을 설명할 수 있도록 하는 몇 가지 옵트아웃 선택을 지원하는 것입니다. 소비자의 개인 데이터는 데이터 마이닝에 전혀 활용되지 않습니다. 소비자의 데이터는 데이터 마이닝에 사용될 수 있지만, 각 소비자의 신원 또는 개인의 신원이 공개될 수 있는 일부 데이터는 삭제되어야 합니다. 데이터는 자체 마이닝에만 사용할 수 있습니다. 데이터는 내부 및 외부에서도 사용할 수 있습니다. 또한 기업은 소비자가 데이터 마이닝을 위해 자신의
분류는 데이터 클래스 또는 개념을 정의하고 분류하는 모델을 발견하는 절차입니다. 모델은 학습 데이터 세트(즉, 클래스 레이블이 유명한 데이터 객체)의 검색을 기반으로 합니다. 모델은 클래스 레이블이 익명인 객체의 클래스 레이블을 예측할 수 있습니다. 파생된 모델은 분류 규칙(즉, IF-THEN 규칙), 의사 결정 트리, 수치 공식 또는 신경망을 비롯한 여러 형식으로 표현될 수 있습니다. 의사 결정 트리는 각 노드가 속성 값에 대한 테스트를 나타내고, 각 분기가 테스트 결과를 정의하고, 트리 잎이 클래스 또는 클래스 분포를 설명하는
웹 검색 엔진은 웹에서 데이터를 검색하는 특수 컴퓨터 서버입니다. 사용자 쿼리의 검색 결과는 목록(적중이라고 함)으로 복원됩니다. 조회수에는 웹페이지, 이미지 및 다양한 유형의 파일이 포함될 수 있습니다. 다양한 검색 엔진이 공개 데이터베이스 또는 공개 디렉토리에서 사용할 수 있는 데이터를 검색하고 반환합니다. 검색 엔진은 웹 디렉토리가 사람 편집자가 지원하는 반면 검색 엔진은 알고리즘 방식으로 또는 알고리즘과 사람 입력의 조합으로 작동한다는 점에서 웹 디렉토리와 다릅니다. 웹 검색 엔진은 대규모 데이터 마이닝 응용 프로그램입니
다음과 같은 마이닝 방법론의 다양한 측면이 있습니다 - 다양하고 새로운 종류의 지식 마이닝 − 데이터 마이닝은 데이터 특성화 및 식별에서 관계 및 상관 관계 분석, 분류, 회귀, 클러스터링, 이상값 방법, 시퀀스 방법, 추세 및 계산 분석에 이르기까지 광범위한 데이터 분석 및 지식 발견 서비스를 다룹니다. 이러한 서비스는 동일한 데이터베이스를 여러 방식으로 사용할 수 있으며 여러 데이터 마이닝 기술의 개발이 필요합니다. 소프트웨어의 다양성으로 인해 새로운 마이닝 서비스가 계속 등장하여 강력하고 빠르게 증가하는 분야의 데이터 마이
속성은 데이터 개체의 특성을 정의하는 데이터 필드입니다. 명사 속성, 차원, 특징 및 변수는 문헌에서 상응하게 사용됩니다. 차원은 일반적으로 데이터 웨어하우징에서 사용됩니다. 기계 학습 문헌은 기능이라는 용어를 사용하는 데 영향을 미치는 반면 통계학자는 가변성 방법을 선호합니다. 데이터 마이닝 및 데이터베이스 전문가는 일반적으로 속성이라는 용어를 사용합니다. 사용자 개체를 정의하는 속성에는 예를 들어 고객 ID, 이름 및 주소가 포함될 수 있습니다. 주어진 속성에 대해 관찰된 값을 관찰이라고 합니다. 속성 세트는 속성 벡터(또는
데이터 전처리, 즉 데이터 정리, 데이터 통합, 데이터 축소 및 데이터 변환과 관련된 주요 단계는 다음과 같습니다. - 데이터 정리 − 데이터 정리 루틴은 누락된 값을 채우고, 잡음이 있는 정보를 평활화하고, 이상값을 식별 또는 제거하고, 편차를 해결하여 정보를 정리하도록 작동합니다. 사용자가 데이터가 더럽다는 것을 이해하면 사용된 일부 데이터 마이닝의 결과를 신뢰하지 않을 것입니다. 또한, 더티 데이터는 마이닝 단계에서 혼란을 일으켜 불안정한 출력을 초래할 수 있습니다. 일부 마이닝 루틴에는 불완전하거나 시끄러운 정보를 처리하
순차 패턴 마이닝은 자주 나타나는 시리즈 이벤트 또는 하위 시퀀스를 패턴으로 마이닝하는 것입니다. Canon 디지털 카메라를 구입한 사용자가 한 달 이내에 HP 컬러 프린터를 구입하는 순차 패턴의 예입니다. 소매 정보의 경우 순차 패턴은 선반 배치 및 판촉에 유용합니다. 이 산업, 통신 및 다양한 비즈니스에서도 대상 마케팅, 사용자 유지 및 여러 작업에 순차적 패턴을 사용할 수 있습니다. 웹 접속 패턴 분석, 날씨 예측, 생산 공정, 웹 침입 탐지 등 순차적 패턴을 사용할 수 있는 여러 영역이 있습니다. 각 시퀀스가 이벤트
GSP는 Generalized Sequential Patterns의 약자입니다. Srikant와 Agrawal이 1996년에 만든 순차 패턴 마이닝 방법입니다. Apriori라고 하는 일반적인 항목 집합 마이닝을 위한 핵심 알고리즘의 확장입니다. GSP는 순차적 패턴의 하향 폐쇄 특성을 필요로 하며 여러 단계를 거쳐 학생이 만들고 테스트하는 접근 방식을 채택합니다. 알고리즘은 다음과 같습니다. 데이터베이스의 첫 번째 스캔에서 몇 가지 빈번한 항목, 즉 지원이 최소인 항목을 발견할 수 있습니다. 각 항목은 해당 항목을 포함하는 1개