Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성
  • C 프로그래밍
  •   
  • C++
  •   
  • Redis
  •   
  • BASH 프로그래밍
  •   
  • Python
  •   
  • Java
  •   
  • 데이터 베이스
  •   
  • HTML
  •   
  • JavaScript
  •   
  • 프로그램 작성
  •   
  • CSS
  •   
  • Ruby
  •   
  • SQL
  •   
  • IOS
  •   
  • Android
  •   
  • MongoDB
  •   
  • MySQL
  •   
  • C#
  •   
  • PHP
  •   
  • SQL Server
  • 프로그램 작성

    1. 네거티브 패턴을 마이닝하는 기술은 무엇입니까?

      드문 패턴을 마이닝하기 위해 생성된 기술의 첫 번째 클래스는 각 항목을 대칭 이진 변수로 간주합니다. 거래 정보는 음수 항목을 추가하여 이진화할 수 있습니다. 초기 데이터를 양수 항목과 음수 항목이 모두 있는 트랜잭션으로 변경한 경우를 표시합니다. 증강 거래에 대한 Apriori를 포함한 현재의 빈번한 항목 집합 생성 알고리즘을 사용하여 일부 음수 항목 집합을 유도할 수 있습니다. 이러한 접근 방식은 여러 변수가 대칭 이진법으로 간주되는 경우에만 가능합니다(즉, 소수의 항목에 대한 부정만 포함하는 음수 패턴으로 간주됨). 각 항목

    2. 지원 기대치를 기반으로 하는 기술은 무엇입니까?

      (개념 계층 구조와 간접 연관이라고 하는 이웃 기반 접근 방식을 사용하여 패턴의 예상 지원을 결정하는 두 가지 접근 방식이 있습니다. 개념 계층에 기반한 지원 기대 객관적인 측정만으로는 흥미롭지 않은 드문 패턴을 제거하기에 충분하지 않습니다. 예를 들어, 빵과 노트북 컴퓨터를 자주 사용하는 품목을 고려하십시오. {bread, Iaptop 컴퓨터} 항목 집합이 드물고 음의 상관 관계가 있을 수 있지만 도메인 전문가에게는 지원 부족이 분명해 보이기 때문에 매력적이지 않습니다. 따라서 이러한 드문 패턴이 생성되는 것을 방지하기 위해

    3. 데이터 마이닝에서 클러스터링의 예는 무엇입니까?

      물리적 또는 추상적인 개체 집합을 동일한 개체의 클래스로 결합하는 프로세스를 클러스터링이라고 합니다. 클러스터는 동일한 클러스터 내에서 서로 동일하고 다른 클러스터의 개체와 다른 데이터 개체 집합입니다. 데이터 개체의 클러스터는 여러 응용 프로그램에서 집합적으로 하나의 그룹으로 간주될 수 있습니다. 클러스터 분석은 필수적인 인간 활동입니다. 클러스터 분석은 이러한 레코드에 대해 수행된 다양한 측정에 따라 동일한 레코드의 그룹 또는 클러스터를 형성하는 데 사용됩니다. 핵심 설계는 분석 목적에 유용할 수 있는 방식으로 클러스터를 정의

    4. 클러스터 분석이란 무엇입니까?

      클러스터 분석은 필수적인 인간 활동입니다. 클러스터 분석은 이러한 레코드에 대해 수행된 다양한 측정에 따라 동일한 레코드의 그룹 또는 클러스터를 형성하는 데 사용됩니다. 핵심 설계는 분석 목적에 유용할 수 있는 방식으로 클러스터를 정의하는 것입니다. 이 데이터는 천문학, 고고학, 의학, 화학, 교육, 심리학, 언어학, 사회학 등 여러 분야에서 사용되었습니다. 클러스터 분석은 몇 년 동안 널리 연구되어 온 통계의 한 분야입니다. 이 기술을 사용하는 이점은 개념 계층과 같은 배경 지식을 활용하지 않고도 데이터에서 흥미로운 구조 또는

    5. 데이터 마이닝의 클러스터링 유형은 무엇입니까?

      다음과 같은 다양한 유형의 클러스터링이 있습니다 - 계층적 vs 부분적 − 여러 유형의 클러스터링 사이의 인식은 클러스터 세트가 중첩 또는 중첩되지 않았는지, 또는 대중적인 용어로 계층적 또는 분할적인지 여부입니다. 분할 클러스터링은 데이터 개체 그룹을 겹치지 않는 하위 집합(클러스터)으로 배포하는 것입니다. 여기에는 모든 데이터 개체가 실제로 하나의 하위 집합에 포함됩니다. 클러스터에 하위 클러스터가 있을 수 있으므로 트리로 할당되는 중첩 클러스터 그룹인 계층적 클러스터링이 필요합니다. 트리의 모든 노드(클러스터)(리프 노드

    6. 데이터 마이닝의 클러스터 유형은 무엇입니까?

      클러스터 분석은 이러한 레코드에 대해 수행된 다양한 측정에 따라 동일한 레코드의 그룹 또는 클러스터를 형성하는 데 사용됩니다. 분석 목적에 도움이 되는 방식으로 클러스터를 정의할 수 있습니다. 이 데이터는 천문학, 고고학, 의학, 화학, 교육, 심리학, 언어학, 사회학 등 여러 분야에서 사용되었습니다. 다음과 같은 다양한 유형의 클러스터가 있습니다 - 잘 구분됨 - 군집은 모든 요소가 군집에 없는 일부 개체보다 군집의 다른 모든 요소에 더 가까운 개체 그룹입니다. 때때로 임계값은 클러스터의 모든 개체가 서로 적절하게 가깝거나 유

    7. K-평균 클러스터링이란 무엇입니까?

      K-평균 클러스터링은 가장 일반적인 분할 알고리즘입니다. K-평균은 데이터 세트의 각 데이터를 새로 형성된 클러스터 중 하나만 재할당합니다. 레코드 또는 데이터 포인트는 거리 또는 유사성 측정을 사용하여 가장 가까운 클러스터에 할당됩니다. k-means 알고리즘은 입력 매개변수 k를 생성하고 n개의 개체 그룹을 k개의 클러스터로 나누어 결과적으로 클러스터 내 유사성은 크지만 클러스터 간 유추는 낮습니다. 클러스터 유사도는 클러스터의 중심 또는 무게 중심으로 볼 수 있는 클러스터에 있는 개체의 평균값을 기준으로 계산됩니다. K-평균

    8. 데이터 마이닝에서 K-Means 알고리즘의 추가 문제는 무엇입니까?

      K-Means Algorithm에는 다음과 같은 다양한 문제가 있습니다. - 빈 클러스터 처리 − 이전에 제공된 기본 K-means 알고리즘의 첫 번째 문제는 할당 단계에서 클러스터에 할당된 포인트가 없는 경우 null 클러스터를 얻을 수 있다는 것입니다. 이 경우 제곱 오차가 필요 이상으로 커지므로 대체 중심을 선택하는 방법이 필요합니다. 한 가지 방법은 최근 중심에서 가장 멀리 떨어진 점을 선택하는 것입니다. 이것이 현재 일부 총 제곱 오차에 기여하는 점을 제거하는 경우. 또 다른 방법은 SSE가 가장 큰 클러스터에서 대체 중

    9. 앙상블 분류기를 구성하는 방법은 무엇입니까?

      개념은 초기 데이터에서 여러 분류기를 만든 다음 알 수 없는 예를 설명할 때 예측을 집계하는 것입니다. 분류기의 앙상블은 다음과 같은 여러 방법으로 구성할 수 있습니다. - 훈련 세트 조작 − 이 방법에서는 일부 샘플링 분포에 따라 초기 데이터를 다시 샘플링하여 여러 훈련 세트를 생성합니다. 샘플링 분포는 훈련을 위해 인스턴스가 선택될 가능성을 결정하며 한 시도에서 다른 시도로 변경될 수 있습니다. 분류기는 특정 학습 알고리즘을 사용하여 각 훈련 세트에서 구성됩니다. 배깅과 부스팅은 훈련 세트를 조작하는 앙상블 방법의 예입니다.

    10. 랜덤 포레스트란 무엇입니까?

      랜덤 포레스트는 의사 결정 트리 분류기를 위해 특별히 설계된 앙상블 접근 방식의 클래스입니다. 여러 의사 결정 트리에서 수행한 예측을 통합합니다. 여기서 각 트리는 별도의 임의 벡터 세트의 값을 기반으로 생성됩니다. 랜덤 벡터는 AdaBoost에서 사용되는 적응적 방법과 달리 일정한 확률 분포에서 생성됩니다. 여기서 분류하기 어려운 대상 인스턴스까지 확률 분포가 다양합니다. Bagging 요구 결정 트리는 초기 훈련 세트에서 복원과 함께 N개의 샘플을 무작위로 선택하여 모델 구축 절차에 무작위성이 삽입되는 임의의 숲의 확실한 경

    11. ROC란 무엇입니까?

      ROC는 수신기 작동 특성 곡선을 나타냅니다. 분류기의 참 긍정 비율과 거짓 긍정 비율 사이의 균형을 보여주는 그래픽 방법입니다. ROC 곡선에서 참양성률(TPR)은 g축 앞에 표시되고 거짓양성률(FPR)은 r축에 표시됩니다. 곡선 앞의 각 점은 분류자가 설득한 모델 중 하나와 상관 관계가 있습니다. 잘 알려진 해석이 있는 ROC 곡선을 따라 몇 가지 임계점이 있습니다. − (TPR:O, FPR:0) − 모델은 모든 인스턴스가 네거티브 클래스가 될 것으로 예측합니다. (TPR:l, FPR:I) − 모델은 모든 인스턴스가 포지티

    12. 샘플링 기반 접근 방식이란 무엇입니까?

      샘플링은 클래스 불균형 문제를 처리하는 데 널리 사용되는 방법입니다. 샘플링의 개념은 훈련 세트에서 희귀 클래스가 잘 정의되도록 예제의 분포를 변경하는 것입니다. 언더샘플링, 오버샘플링 및 두 접근 방식의 하이브리드와 같은 다양한 샘플링 기술이 있습니다. 예를 들어 100개의 긍정적인 예와 1,000개의 부정적인 예가 포함된 데이터 세트를 생각해 보십시오. 언더샘플링 방법에서는 100개의 부정적인 예의 무작위 샘플을 선택하여 모든 긍정적인 예와 함께 앞서 훈련 세트를 형성합니다. 이 방법의 한 가지 문제는 유용한 부정적인 예 중

    13. 데이터 마이닝에서 지원 및 신뢰를 사용하는 이유는 무엇입니까?

      지지도가 매우 낮은 규칙이 우연히 나타날 수 있기 때문에 지지도는 실질적인 척도입니다. 낮은 지원 규칙은 사용자가 거의 함께 구매하지 않는 항목을 강화하는 데 수익성이 없기 때문에 비즈니스 관점에서도 지루할 수 있습니다. 연관 규칙은 X→Y 형식의 함축적 설명입니다. 여기서 X와 Y는 분리된 항목 집합, 즉 $\mathrm{X\cap\:Y=\phi}$입니다. 연관 규칙의 지속성은 지원 및 신뢰 측면에서 계산할 수 있습니다. 지원은 주어진 데이터 세트에 액세스할 수 있는 규칙을 제공하는 방법을 결정하는 반면 신뢰도는 X를 포함하는

    14. 지원 계산이란 무엇입니까?

      지원 카운팅은 apriori-gen 함수의 후보 가지치기 단계에서 살아남은 각 후보 항목 집합에 대한 출현 빈도를 결정하는 절차입니다. 이를 수행하는 한 가지 방법은 각 후보 항목 집합에 대해 각 트랜잭션을 비교하고 트랜잭션에 포함된 후보의 지원 수를 새로 고치는 것입니다. 이 방법은 특히 여러 트랜잭션과 후보 항목 집합이 높을 때 계산 비용이 많이 듭니다. 두 번째 접근 방식은 각 트랜잭션에 포함된 항목 집합을 열거하고 특정 후보 항목 집합의 지원 수를 새로 고쳐야 하는 것입니다. 5개의 항목 {I, 2, 3, 5, 6}을 포

    15. Apriori 알고리즘의 복잡성은 무엇입니까?

      Apriori 알고리즘의 계산 복잡성은 다음과 같은 요인에 의해 영향을 받을 수 있습니다. - 지원 임계값 − 지원 임계값을 낮추면 더 높은 항목 집합이 자주 표시되는 것으로 나타납니다. 이것은 더 높은 후보 항목 집합이 생성되고 계산되어야 하기 때문에 알고리즘의 계산 복잡성에 좋지 않은 영향을 미칩니다. 빈번한 항목 집합의 최대 크기는 낮은 지원 임계값으로 개선하는 데에도 영향을 미칩니다. 빈번한 항목 집합의 최대 크기가 향상됨에 따라 데이터 집합에 대해 더 많은 패스를 생성하려면 알고리즘이 필요합니다. 항목 수(차원) −

    16. 최대 빈도 항목 집합이란 무엇입니까?

      최대 빈도 항목 집합은 직접 상위 집합이 자주 사용되지 않는 빈도 항목 집합으로 표시됩니다. 격자의 항목 집합은 빈번한 항목과 드물게 발생하는 항목의 두 그룹으로 나뉩니다. 점선으로 정의되는 빈번한 항목 집합 테두리입니다. 경계 위에 있는 각 항목 집합은 빈번한 반면 경계 아래에 있는 항목(음영 처리된 노드)은 드물게 있습니다. 경계 근처에 있는 항목 집합 사이에 {a, d}, {a, c, e} 및 {b, c, d, e}는 직접 상위 집합이 드물기 때문에 최대 빈도 항목 집합으로 처리됩니다. {a, d}를 포함하는 항목 집합은 일

    17. 빈번한 항목 집합을 생성하는 방법은 무엇입니까?

      Apriori는 빈번한 항목 집합 생성의 조합 버스트를 강력하게 해결한 알고리즘입니다. 지수 검색 영역을 줄이기 위해 Apriori 원리를 사용하여 이를 구현합니다. 중요한 성능 향상에도 불구하고 이 알고리즘은 트랜잭션 레코드 집합에 대해 다양한 전달을 수행해야 하기 때문에 상당한 I/O 오버헤드를 얻습니다. Apriori 알고리즘의 동작은 트랜잭션의 폭이 향상되기 때문에 밀도가 높은 데이터 세트에 대해 본질적으로 저하될 수 있습니다. 이러한 단점을 극복하고 Apriori 알고리즘의 효율성을 향상시키기 위해 여러 가지 방법이 만들

    18. FP-Tree의 표현은 무엇입니까?

      FP 트리는 입력 데이터에 대한 확실한 설명입니다. 한 번에 하나의 트랜잭션 데이터 세트를 읽고 각 트랜잭션을 FP-트리의 경로에 대해 측정하여 조합됩니다. 여러 트랜잭션에는 여러 항목이 공통적으로 포함될 수 있으며 해당 경로는 겹칠 수 있습니다. 경로가 서로 겹칠수록 FP-트리 아키텍처를 사용하여 더 많은 압축을 구현할 수 있습니다. FP-tree의 크기가 주 메모리에 맞을 수 있다면 디스크에 저장된 데이터에 대해 반복적인 패스를 생성하지 않고 메모리의 아키텍처에서 직접 빈번한 항목 집합을 추출할 수 있습니다. 트리의 각 노드에

    19. 리퍼 알고리즘이란 무엇입니까?

      RIPPER라는 널리 사용되는 규칙 유도 알고리즘입니다. 이 알고리즘은 여러 훈련 인스턴스와 거의 선형으로 확장되며 특히 오버로드된 클래스 분포가 있는 데이터 세트에서 모델을 구성하는 데 적합합니다. RIPPER는 검증 세트를 사용하여 모델 과적합을 방지하기 때문에 노이즈가 많은 데이터 세트에서도 잘 작동합니다. RIPPER는 다수 클래스를 기본 클래스로 선택하고 소수 클래스를 식별하는 규칙을 이해합니다. 다중 클래스 문제의 경우 클래스는 빈도에 따라 시리즈입니다. 하자 (y1 y2 ...yc ) 정렬된 클래스, 여기서 y1 가

    20. 최근접 이웃 분류기의 특징은 무엇입니까?

      Nearest Neighbor 규칙은 훈련 인스턴스를 가져오는 할당에 대한 사전 가정 없이 종종 고성능을 생성합니다. 여기에는 긍정적인 경우와 부정적인 경우의 훈련 세트가 포함됩니다. 편리한 훈련 사례까지의 거리를 계산하여 새 샘플을 정의합니다. 그 지점의 부호가 샘플의 분류를 결정합니다. k-NN 분류기는 k개의 가장 가까운 점을 취하고 다수의 부호를 생성하여 이 개념을 향상시킵니다. 동점(일반적으로 1, 3 또는 5)을 나누기 위해 k 작고 홀수를 선택하는 경우가 많습니다. k 값이 클수록 훈련 데이터 세트 내 잡음 포인트의

    Total 1466 -컴퓨터  FirstPage PreviousPage NextPage LastPage CurrentPage:45/74  20-컴퓨터/Page Goto:1 39 40 41 42 43 44 45 46 47 48 49 50 51