연관 규칙 학습은 한 데이터 요소가 다른 데이터 요소에 의존하는지 테스트하고 적절하게 설계하여 보다 비용 효율적일 수 있도록 하는 일종의 비지도 학습 기법입니다. 데이터 세트의 변수 사이에 몇 가지 흥미로운 관계 또는 연관성을 발견하려고 시도합니다. 데이터베이스에서 변수 간의 흥미로운 관계를 찾는 것은 다양한 규칙에 따라 달라집니다. 연관 규칙 학습은 머신 러닝의 가장 중요한 접근 방식이며 장바구니 분석, 웹 사용 마이닝, 연속 생산 등에 사용됩니다. 장바구니 분석에서는 항목. 웹 마이닝은 적응된 데이터 마이닝 방법을 인터넷에
데이터 마이닝은 통계 및 수치 기법을 포함한 패턴 인식 기술을 사용하여 리포지토리에 저장된 많은 양의 레코드를 전송하여 유용한 새로운 상관 관계, 패턴 및 추세를 발견하는 단계입니다. 의심하지 않은 관계를 발견하고 데이터 소유자에게 논리적이고 도움이 되는 새로운 방법으로 기록을 요약하기 위한 사실 데이터 세트의 분석입니다. 데이터베이스 소유자에게 명확하고 유익한 결과를 얻기 위해 처음에는 알려지지 않은 규칙성 또는 관계를 찾기 위해 다량의 정보를 선택, 탐색 및 모델링하는 절차입니다. 데이터 마이닝은 데이터 과학과 유사합니다.
ETL은 추출, 변환 및 로드를 나타냅니다. 데이터 기반 조직에서 여러 소스에서 데이터를 수집한 다음 이를 통합하여 검색, 보고, 분석 및 의사 결정을 지원하는 데 사용하는 프로세스입니다. 데이터 소스는 유형, 형식, 볼륨 및 안정성이 다를 수 있으므로 함께 제공될 때 도움이 되도록 처리해야 하는 데이터가 필요합니다. 대상 데이터 저장소는 목표 및 기술 실행에 따라 데이터베이스, 데이터 웨어하우스 또는 데이터 레이크가 될 수 있습니다. 다음과 같은 ETL의 다음 단계가 있습니다 - 추출 − 추출하는 동안 ETL은 데이터를 인식하
ELT는 추출, 로드 및 변환을 의미합니다. 원본 서버에서 대상 서버의 데이터 시스템(예:데이터 웨어하우스 또는 데이터 레이크)으로 원시 데이터를 전송한 다음 다운스트림 사용을 위해 데이터를 맞추는 데이터 통합 프로세스입니다. 추출 및 로드 절차는 변환 단계에서 분리될 수 있습니다. 변환 프로세스에서 로드 단계를 분리하면 이러한 단계 간의 고유한 종속성이 삭제됩니다. 변환에 필요한 데이터를 포함할 수 있으며, 추출 및 로드 프로세스에는 미래에 필수적일 수 있는 데이터 요소가 포함될 수 있습니다. 로드 프로세스는 전체 소스를 가
ETL ETL은 추출, 변환 및 로드를 나타냅니다. 데이터 기반 조직에서 여러 소스에서 데이터를 수집한 다음 이를 통합하여 검색, 보고, 분석 및 의사 결정을 지원하는 데 사용하는 프로세스입니다. 데이터 웨어하우스를 생성하는 것은 단순히 여러 소스에서 데이터를 추출하여 데이터 웨어하우스의 데이터베이스에 로드하는 것이라고 생각하고 싶을 것입니다. ETL 프로세스는 개발자, 분석가, 테스터, 최고 관리자를 비롯한 여러 이해 관계자의 적극적인 입력이 필요했으며 기술적으로 어렵습니다. 의사 결정자를 위한 도구로서의 가치를 뒷받침할 수
비즈니스 인텔리전스는 원시 데이터를 비용 효율적인 비즈니스 서비스를 구동하는 중요한 정보로 수정하는 절차, 메커니즘 및 기술의 모음입니다. 데이터를 실행 가능한 인텔리전스 및 인식으로 수정하는 소프트웨어 및 서비스 모음입니다. BI는 조직의 방법, 전술 및 운영 비즈니스 의사결정에 분명한 영향을 미칩니다. BI는 가정과 직감보다는 과거 데이터를 사용하여 사실에 기반한 의사 결정을 지원합니다. BI 도구는 데이터 분석을 구현하고 문서, 요약, 대시보드, 지도, 그래프 및 차트를 만들어 비즈니스 기능에 대한 자세한 인텔리전스를 사용자
기술적 데이터 마이닝 기술적 마이닝은 일반적으로 상관관계, 교차표, 빈도 등을 제공하는 데 사용됩니다. 이러한 방법은 데이터의 규칙성을 결정하고 패턴을 드러내는 데 사용됩니다. 보고 및 모니터링을 위해 기록을 중요한 데이터로 요약하고 변환하는 데 중점을 둡니다. 기술 마이닝은 데이터를 설명합니다. 데이터가 캡처되면 사람이 해석할 수 있는 형식으로 수정할 수 있습니다. 기술 데이터 마이닝에서 Apriori 알고리즘을 사용하여 항목 집합 간의 상관 관계를 찾기 위해 학생 성과를 특성화하는 연관 기술입니다. Apriori 알고리즘은
공간 데이터 마이닝 공간 데이터 마이닝은 데이터 마이닝을 공간 모델에 적용하는 것입니다. 공간 데이터 마이닝에서 분석가는 지리 또는 공간 레코드를 사용하여 비즈니스 인텔리전스 또는 여러 결과를 생성합니다. 이를 위해서는 지리 정보를 관련성 있고 유용한 형식으로 얻기 위한 특정 기술과 리소스가 필요했습니다. 공간 데이터의 진화와 공간 데이터베이스의 광범위한 사용은 공간 지식 발견을 지배했습니다. 공간 데이터 마이닝은 공간 데이터베이스에서 몇 가지 놀랍고 가상적으로 가치 있는 패턴을 결정하는 프로세스로 학습될 수 있습니다. 공간
개념 설명 개념 설명은 데이터 마이닝의 최종 유형입니다. 단골 구매자, 대학원 지원자 등을 포함한 일련의 데이터를 정의합니다. 데이터의 특성화 및 비교를 설명합니다. 설명할 개념이 객체의 클래스로 정의될 때 클래스 설명이라고도 합니다. 이러한 설명은 데이터 특성화의 지원으로 결정할 수 있습니다. 데이터 특성화는 대상 데이터 클래스의 일반적인 특성을 요약한 것입니다. 특정 사용자 정의 클래스와 관련된 데이터는 일반적으로 데이터베이스 쿼리에 의해 복구됩니다. 데이터 특성화의 출력은 막대 차트, 곡선, 파이 차트 및 라이브 그래프 등
연관 규칙 학습은 한 데이터 요소가 다른 데이터 요소에 종속되는지 테스트하고 적절하게 생성하여 더 효과적일 수 있도록 하는 일종의 비지도 학습 방법입니다. 데이터 세트의 변수 사이에 흥미로운 관계나 관계를 찾으려고 합니다. 데이터베이스에서 변수 간의 흥미로운 관계를 찾는 것은 여러 규칙에 따라 다릅니다. 연관 규칙 학습은 기계 학습의 중요한 기술이며 장바구니 분석, 웹 사용 마이닝, 연속 생산 등에 사용됩니다. 장바구니 분석에서는 여러 대형 소매업체에서 항목 간의 관계를 찾는 데 적절하게 사용합니다. 장바구니 분석에서 사용자의
응집 클러스터링은 클러스터에 하위 클러스터가 있고 차례로 하위 클러스터 등이 있는 상향식 클러스터링 방법입니다. 각 개체를 클러스터에 배치하는 것으로 시작한 다음 모든 개체가 완성될 때까지 이러한 원자 클러스터를 더 높은 클러스터로 혼합할 수 있습니다. 개별 클러스터에서 또는 명확한 종료 조건이 필요할 때까지. 이 유형에 사용되는 일부 계층적 클러스터링 방법. 클러스터 간 유사성에 대한 설명에서만 구별됩니다. 예를 들어 AGNES(Agglomerative Nesting)라는 방법은 단일 링크 기술이 필요하며 다음과 같이 작동합니다
데이터 일반화는 상대적으로 낮은 수준의 값(속성 연령에 대한 숫자 값 포함)을 높은 수준의 개념(청소년, 중년 및 노인 포함)으로 대체하여 데이터를 요약합니다. 따라서 상대적으로 낮은 개념 수준에서 높은 개념 수준으로 데이터베이스에 있는 방대한 작업 관련 정보 집합을 추상화하는 프로세스입니다. 다음은 대규모 데이터 세트의 효율적이고 유연한 일반화를 위한 두 가지 접근 방식입니다 - OLAP 접근 방식 − 데이터 큐브 기술은 데이터 웨어하우스 기반, 사전 계산 지향, 구체화된 뷰 접근 방식으로 처리될 수 있습니다. OLAP 또는
계급 차별은 계급 차별로 정의됩니다. 사회계층에 따른 편견이나 차별입니다. 이는 상류층에게 하류층만큼 혜택을 주기 위해 마련된 개인의 태도, 행동, 정책 시스템 및 관행을 포함합니다. 인종주의라는 용어가 개인의 편견이나 제도적 인종주의를 엄격하게 정의할 수 있는 것처럼 계급주의는 하층 계급과 제도적 계급주의에 대한 개인적 편견을 정의할 수 있습니다. 후자는 우리 사회의 여러 제도에서 의식적이든 무의식적이든 계급주의가 얼마나 분명한가로 표현되었습니다. 계급 차별은 텔레비전 쇼, 영화, 소셜 미디어를 포함한 여러 형태의 미디어에서
관련 없는 속성을 필터링하거나 관련 속성의 순위를 지정하기 위해 데이터를 사전 처리하는 통계적 접근 방식입니다. 속성 관련성 분석의 측정은 개념 설명 프로세스에서 승인되지 않을 수 있는 관련 없는 속성을 인식하는 데 사용할 수 있습니다. 이 전처리 단계를 클래스 특성화 또는 비교에 통합하는 것을 분석적 특성화로 정의합니다. 데이터 차별은 대상 클래스와 대조 클래스로 정의된 두 클래스 간의 객체의 일반적인 특징을 비교하는 식별 규칙을 만듭니다. 대상 클래스 데이터 개체의 일반적인 특성과 대조되는 클래스 중 하나 또는 집합의 개체의
관계형 데이터베이스 시스템은 count(), sum(), avg(), max() 및 min()과 같은 5가지 기본 제공 집계 함수를 지원합니다. 이러한 집계 함수는 다차원 정보의 기술적 마이닝에서 기본 측정값으로 사용할 수 있습니다. 중심 경향 측정과 데이터 분산 측정과 같은 두 가지 기술적인 통계 측정이 있으며 고차원 데이터베이스에서 효과적으로 사용할 수 있습니다. 중심 경향 측정 − 평균, 중앙값, 모드 및 중간 범위와 같은 중심 경향의 측정값. 평균 - 산술 평균은 단순히 모든 값을 함께 삽입하고 값의 수로 분할하여 평가됩
다음과 같은 두 가지 유형의 분할 알고리즘이 있습니다 - K-평균 클러스터링 − K-means 클러스터링은 가장 일반적인 분할 알고리즘입니다. K-평균은 데이터 세트의 각 데이터를 새로 형성된 클러스터 중 하나만 재할당합니다. 레코드 또는 데이터 포인트는 거리 또는 유사성 측정을 사용하여 가장 가까운 클러스터에 할당됩니다. K-평균 클러스터링에는 다음 단계가 사용됩니다. K 초기 클러스터 중심 c1를 선택할 수 있습니다. , c2 , c3 ... . ck . 중심이 x에 가장 가까운 S 클러스터의 각 인스턴스 x를 할당
비지도 학습은 레이블이 지정되지 않은 데이터 집합을 제공할 수 있는 경우이며 내부 패턴을 분석하고 찾는 데 필요합니다. 예로는 차원 축소 및 클러스터링이 있습니다. 레이블이 지정되지 않았거나 분류되지 않았거나 분류되지 않은 데이터 그룹과 일부 감독 없이 해당 데이터를 용이하게 하는 데 필요한 알고리즘이 있는 머신에 교육이 지원됩니다. 비지도 학습의 목적은 입력 레코드를 동일한 패턴의 새로운 기능 또는 객체 세트로 재구성하는 것입니다. 클러스터 분석은 이러한 레코드에 대해 수행된 다양한 측정에 따라 동일한 레코드의 그룹 또는 클러스
그리드 기반 클러스터링 방법은 다중 해상도 그리드 데이터 구조를 사용합니다. 클러스터링을 위한 모든 작업이 구현되는 그리드 구조를 형성하는 한정된 수의 셀로 개체 영역을 양자화합니다. 이 방법의 이점은 일반적으로 데이터 개체 수와 무관하며 양자화된 공간의 각 차원에 있는 여러 셀에만 의존하는 빠른 처리 시간입니다. 그리드 기반 클러스터링은 다중 해상도 그리드 데이터 구조를 사용하고 조밀한 그리드 셀을 사용하여 클러스터를 형성합니다. STING, 웨이브 클러스터, CLIQUE 등의 흥미로운 방법이 있습니다. 스팅 − 통계 정보 그
진화 알고리즘은 생물의 행동을 모방하는 프로세스를 사용하여 문제를 해결하는 진화적 AI 기반 컴퓨터 소프트웨어입니다. 따라서 번식, 돌연변이 및 재조합을 포함하여 일반적으로 생물학적 진화와 관련된 메커니즘이 필요합니다. 데이터 추출 및 변환 도구의 예는 진화 기술의 ETL-EXTRACT 도구 모음입니다. 추출은 데이터 웨어하우스 환경에서 추가 도움말을 위해 소스 시스템에서 정보를 추출하는 서비스입니다. ETL 프로세스의 첫 번째 절차입니다. 추출 후 이 데이터를 변경하여 데이터 웨어하우스에 로드할 수 있습니다. 데이터 추출 프로
MBR에는 다음과 같은 다양한 요소가 있습니다. - 훈련 세트 선택 − 교육 세트에는 49,652개의 뉴스 기사가 포함되었으며 이 목표를 위해 뉴스 검색 서비스가 지원했습니다. 이 이야기는 약 3개월간의 뉴스와 거의 100개에 달하는 다양한 출처에서 나타납니다. 각 이야기에는 평균 2,700개의 단어가 포함되어 있고 8개의 코드가 생성되었습니다. 훈련 세트는 특별히 생성되지 않았기 때문에 훈련 세트의 코드 빈도는 크게 달라져 일반적으로 뉴스 기사의 전체 코드 빈도를 모방했습니다. 거리 함수 선택 − 다음 단계는 거리 함수를 선택하는