k-최근접 이웃 알고리즘은 클래스 구성원(Y)과 예측 변수 X1 간의 관계 구조에 대한 가정을 생성하지 않는 분류 접근 방식입니다. , X2 , .... Xn . 이것은 선형 회귀에서 가장한 선형 형식을 포함하여 가장된 함수 형식에서 매개변수 추정을 포함하지 않기 때문에 비모수적 접근 방식입니다. 이 방법은 데이터 세트에 있는 데이터의 예측 변수 값 간의 유사성에서 데이터를 가져옵니다. k-NN 방법의 이점은 무결성과 매개변수 가정의 필요성입니다. 거대한 훈련 세트가 있는 경우 이러한 접근 방식은 각 클래스가 여러 예측 변수 조
판별 분석 접근 방식은 분류 점수에 나타나는 두 가지 주요 가정에 의존합니다. 첫째, 일부 클래스의 예측 변수 측정이 다변량 정규 분포에서 나타나는 것으로 간주합니다. 이 가설이 합리적으로 조립되면 판별 분석은 로지스틱 회귀를 포함한 다른 분류 방법보다 동적인 도구입니다. 데이터가 다변량 정규식이면 판별 분석이 로지스틱 회귀보다 30% 더 효과적이며 동일한 결과에 도달하기 위해 30% 적은 레코드가 필요하다는 것이 표시됩니다. 이 방법은 예측 변수가 비정규 변수가 될 수 있고 심지어 더미 변수가 될 수 있다는 점에서 정규성을 벗어
학습의 가장 간단한 구조는 단순 암기 또는 암기 학습입니다. 훈련 인스턴스 그룹이 기억되었기 때문에 새로운 인스턴스를 만나면 새로운 인스턴스와 가장 강력하게 유사한 훈련 인스턴스에 대한 기억이 조사됩니다. 유일한 문제는 유사성을 명확히하는 방법입니다. 첫째, 이것은 인스턴스 그룹에서 추출한 지식을 설명하는 완전히 다른 방법입니다. - 인스턴스 자체를 저장하고 클래스가 알려진 현재 인스턴스에 클래스가 알려지지 않은 새 인스턴스를 연결하여 작동합니다. 규칙을 만들려고 하기보다 인스턴스 자체에서 직접 작업하십시오. 이를 인스턴스 기반
의사 결정 트리는 각 내부 노드가 속성에 대한 테스트를 나타내고, 각 부서가 테스트 결과를 정의하고, 리프 노드가 클래스 또는 클래스 분포를 설명하는 순서도와 같은 트리 메커니즘입니다. 트리에서 가장 큰 노드는 루트 노드입니다. 의사 결정 트리를 구성하는 문제는 재귀적으로 정의할 수 있습니다. 먼저 루트 노드에 배치할 속성을 선택하고 가능한 각 값에 대해 하나의 분기를 만듭니다. 이렇게 하면 속성의 각 값에 대해 하나씩 예제 집합을 하위 집합으로 나눕니다. 부서에 도달하는 인스턴스만 활용하여 모든 지점에 대해 절차를 재귀적으로 반
10겹 교차 검증은 특정 데이터 세트에 대한 학습 체계의 오류율을 측정하는 표준 방법입니다. 신뢰할 수 있는 결과를 위해 10배의 10배 교차 검증을 수행합니다. Leave-One-Out 교차 검증과 부트스트랩의 두 가지 방법이 있습니다. Leave-One-Out 교차 검증 Leave-one-out 교차 검증은 공개적으로 n-겹 교차 검증이며, 여기서 n은 데이터 세트의 여러 인스턴스입니다. 각 인스턴스는 차례로 생략되고 학습 계획은 나머지 모든 인스턴스에 대해 학습됩니다. 나머지 인스턴스의 정확성에 따라 계산됩니다. 따라서 성공
널리 사용되는 유형의 피드포워드 네트워크는 RBF(Radial Basis Function) 네트워크입니다. 그것은 입력 레이어를 세지 않고 두 개의 레이어를 가지고 있으며 은닉 유닛이 계산을 구현하는 방식에서 다층 퍼셉트론과 대조됩니다. 각 은닉 유닛은 입력 공간의 특정 지점과 해당 지점과 다른 지점인 인스턴스 사이의 거리를 기반으로 주어진 인스턴스에 대한 출력 또는 활성화를 크게 정의합니다. 이 두 지점이 가까울수록 활성화가 더 잘 됩니다. 이것은 거리를 유사성 측정으로 수정하기 위해 비선형 변환 함수를 사용하여 구현됩니다.
일반화된 예시는 고차원이기 때문에 초사각형으로 알려진 인스턴스 영역의 직사각형 범위입니다. 새 인스턴스를 정의할 때 거리 함수를 변환하여 초사각형까지의 거리를 계산할 수 있도록 하는 것이 필수적입니다. 새로운 exemplar가 올바르게 정의되면 유사한 클래스의 가장 가까운 exemplar와 직접 병합하여 일반화됩니다. 가장 가까운 예시는 개별 인스턴스 또는 초사각형이 될 수 있습니다. 이 방법에서는 이전 인스턴스와 새 인스턴스를 포함하는 새 초사각형이 생성됩니다. 초사각형은 새 인스턴스를 둘러싸도록 확장됩니다. 마지막으로, 예측
연속적인 속성이 엄청난 수의 가능한 값(무한)을 갖는 것으로 처리되는 동안 속성은 연관적으로 적은 수(유한)의 가능한 값을 갖는 경우 이산적입니다. 다시 말해, 이산 데이터 속성은 범위가 유한 그룹인 함수로 볼 수 있는 반면 연속 데이터 속성은 범위가 무한 완전 정렬된 그룹, 일반적으로 간격인 함수로 볼 수 있습니다. 이산화는 연속 속성을 여러 간격으로 분할하여 가능한 값의 수를 줄이는 것을 목표로 합니다. 이산화 문제에는 두 가지 방법이 있습니다. 하나는 소위 unsupervised discretization이라고 하는 훈련
데스크톱 컴퓨터의 크기는 사용자의 특성과 관련 도구 요구 사항을 기반으로 합니다. 웹 브라우저를 통해 HTML 문서로 필요한 데이터를 충족하는 일반 사용자는 인터넷 브라우저를 실행하는 데 필요한 만큼의 전력만 있으면 됩니다. 반면에 복잡한 쿼리를 개발하고 처음부터 분석하는 고급 사용자에게는 더 동적인 시스템이 필요할 수 있습니다. 다음과 같은 몇 가지 데스크탑 관련 문제가 있습니다 - 교차 플랫폼 지원 − 일부 조직에는 마케팅 조직에 Macintosh 홀드아웃이 있고 일부 조직에는 엔지니어링 및 제조 분야에 UNIX 저장소가 필
디렉토리 서버는 관련 네트워크에서 액세스할 수 있는 리소스의 데이터 웨어하우스 유형입니다. 데이터베이스 장치, 개별 데이터베이스, 파일 저장소, 트랜잭션 시스템, 파일 저장 영역, 프린터 및 사람과 같은 리소스입니다. 사람 설명에는 이름과 주소, 조직 역할, 전자 메일 주소 등이 포함됩니다. 디렉토리 서버는 합법적이고 인증된 요청자에게 선택된 정보 항목을 보여줍니다. 연결된 네트워크에서 통신하는 방법을 찾기 위한 유용하고 중앙 집중화된 제어 리소스입니다. 많은 공급업체가 디렉토리 서버와 통신하기 위해, 따라서 암시적으로 디렉토리
가장 단순한 형태의 암호화는 대칭 키 암호화입니다. 이러한 종류의 암호화를 개인 키 암호화라고도 합니다. 대칭 키 암호화를 사용하면 단일 비밀 키로 정보를 잠그고 정보를 잠금 해제할 수 있습니다. 대칭 키 암호화는 주로 두 가지 상황에서 흥미롭습니다. 개인 데이터 암호화 − 사용자가 다른 사람에게 공개하지 않는 개인 키로 데이터를 암호화합니다. 키가 좋은 키라면 누구도 데이터를 해독할 수 없습니다. 데이터의 개인 암호화는 데이터 웨어하우스에서 여러 용도로 사용할 수 있습니다. 특히 민감한 데이터는 암호화될 수 있습니다. 개인
대칭 키 암호화는 키를 안전하게 배포하는 방법에 대한 주요 문제가 있습니다. 웹을 통해서도 보안 연결 링크를 설정하는 두 원격 당사자의 문제를 관리하기 위해 여러 세트의 암호화 체계가 생성되었습니다. 이러한 암호화 체계를 공개 키 암호화라고 합니다. 공개 키 암호화에서는 하나의 키로 정보를 암호화하고 두 번째 키로 정보를 해독하므로 두 개의 키가 있습니다. 이 방식에서 키 중 하나는 개인 키로 지정되고 다른 하나는 공개 키로 지정됩니다. 개인 키는 기록의 소유자에 의해 분류되어 보관되며 공개 키는 전 세계 모든 사람에게 자유롭고
데이터 웨어하우징은 비즈니스에 의미 있는 비즈니스 통찰력을 제공하기 위해 다양한 소스에서 데이터를 수집하고 관리하는 데 주로 사용되는 기술입니다. 데이터 웨어하우스는 관리 결정을 지원하도록 특별히 설계되었습니다. 간단히 말해서 데이터 웨어하우스는 조직의 운영 데이터베이스와 독립적으로 유지 관리되는 데이터베이스를 정의합니다. 데이터 웨어하우스 시스템은 여러 애플리케이션 시스템의 통합을 가능하게 합니다. 분석을 위해 통합된 과거 데이터의 강력한 플랫폼을 제공하여 데이터 처리를 지원합니다. 데이터 웨어하우스는 다차원 공간에서 데이터를
팩트 테이블에는 여러 외래 키(각 차원 테이블에 하나씩)와 이러한 차원을 사용하는 각 측정값에 대한 열이 포함된 복합 기본 키가 포함됩니다. 모든 데이터 준비 프로세스에는 팩트 테이블의 각 차원에 대해 들어오는 팩트 테이블 레코드의 프로덕션 ID를 데이터 웨어하우스 대리 키로 바꾸는 단계가 포함되어야 합니다. 다른 처리, 계산 및 구조 조정이 필요할 수도 있습니다. 웨어하우스에서 참조 무결성(RI)은 팩트 테이블의 각 외래 키에 대해 항목이 동등한 차원 테이블에서 계속되도록 정의합니다. 제품 번호 323442에 대한 팩트 테이블
데이터 마이닝은 통계 및 수학적 기법을 포함한 패턴 인식 기술을 사용하여 저장소에 저장된 많은 양의 데이터를 전송하여 유용한 새로운 상관 관계, 패턴 및 추세를 찾는 프로세스입니다. 의심하지 않은 관계를 발견하고 데이터 소유자에게 논리적이고 도움이 되는 새로운 방법으로 기록을 요약하기 위한 사실 데이터 세트의 분석입니다. 다음과 같은 데이터 마이닝의 다양한 변형이 있습니다 - 정상, 비정상, 범위를 벗어남 또는 불가능한 사실에 플래그 지정 − 측정된 사실을 특수 플래그로 표시하면 완전히 도움이 될 수 있습니다. 일부 측정된 사실
데이터 마이닝은 통계 및 수학적 기법을 포함한 패턴 인식 기술을 사용하여 저장소에 저장된 많은 양의 데이터를 전송하여 유용한 새로운 상관 관계, 패턴 및 추세를 찾는 프로세스입니다. 의심하지 않은 관계를 발견하고 데이터 소유자에게 논리적이고 도움이 되는 새로운 방법으로 기록을 요약하기 위한 사실 데이터 세트의 분석입니다. 다음과 같은 다양한 데이터 마이닝 개념이 있습니다. - 분류 - 분류는 클래스 레이블이 익명인 객체의 클래스를 예측하기 위해 모델을 사용할 수 있도록 하기 위해 데이터 클래스 또는 개념을 표현하고 구별하는 모델
데이터 시각화는 포괄적인 차트, 이미지, 목록, 차트 및 여러 시각적 개체를 지원하여 데이터의 시각적 표현을 정의합니다. 이를 통해 사용자는 짧은 시간 내에 데이터를 학습하고 유용한 데이터, 패턴 및 추세를 추출할 수 있습니다. 또한, 단순히 이해할 수 있도록 데이터를 생성합니다. 즉, 사용자가 데이터의 추세를 쉽게 이해할 수 있도록 그래픽 형태로 데이터를 표현하는 것을 데이터 시각화라고 할 수 있습니다. 차트 맵, 그래프 등을 포함하여 데이터 시각화에 포함된 여러 도구가 있습니다. 데이터 시각화에 사용되는 도구는 사용자가 데이
히트맵은 색상이 값을 나타내는 데 사용되는 숫자 데이터의 그래픽 표시입니다. 데이터 마이닝 컨텍스트에서 히트맵은 두 가지 목적, 즉 상관 관계 테이블 시각화와 데이터의 결측값 시각화에 특히 유용합니다. 두 경우 모두 정보가 2차원 테이블로 전달됩니다. 히트맵은 여러 값을 정의하기 위해 색상 코딩 시스템이 필요한 데이터에 대한 그래픽 설명입니다. 히트맵은 다양한 형태의 분석에 사용되지만 특정 웹 페이지 또는 웹 페이지 템플릿에서 사용자 행동을 표시하는 데 가장 일반적으로 사용됩니다. 히트맵은 사용자가 페이지를 눌렀던 위치, 페이지
다음과 같은 데이터 소스를 선택하는 다양한 기준이 있습니다 - 데이터 접근성 − 데이터에 대해 두 가지 가능한 피드가 존재하는 경우, 하나는 가장 어린 프로젝트 팀원이 태어나기 전에 작성된 일련의 프로그램에서 유지 관리하는 이진 파일에 저장되고 다른 하나는 이진 문서를 읽고 더 많은 처리를 지원하는 시스템에서 가져온 것입니다. 결정은 뻔합니다. 데이터 정확도 − 데이터가 시스템에서 시스템으로 전달되면서 많은 수정이 이루어집니다. 때로는 다른 시스템의 데이터 요소가 추가되고 때로는 기존 요소를 처리하여 새로운 요소를 생성하고 다른
다음과 같은 데이터 스테이징의 다양한 요구 사항이 있습니다 - 생산성 지원 − 구현하기로 결정한 모든 시스템은 코드 라이브러리 관리 체크인/체크아웃, 버전 제어, 생산 및 개발 시스템 구성과 같은 기본 개발 환경 기능을 지원해야 합니다. 초기에 소규모 프로젝트의 경우 표준 문서, 프로세스 설명 및 표준 디렉토리 세트를 통해 구현할 수 있습니다. 사용성 − 데이터 스테이징 시스템은 작업의 근본적인 복잡성을 감안할 때 가능한 한 사용 가능해야 합니다. 지난 몇 년 동안 이것은 그래픽 사용자 인터페이스로 변환되었습니다. 좋은 인터페이