Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

데이터 마이닝에서 단일 속성 평가자란 무엇입니까?

<시간/>

단일 속성 평가기에서는 Ranker 검색 방법과 함께 사용하여 Ranker가 주어진 숫자를 버리는 순위 목록을 만들 수 있습니다. RankSearch 방식에서도 사용됩니다.

기복 속성 평가는 인스턴스 기반입니다. − 인스턴스를 무작위로 샘플링하여 동일 및 다중 클래스의 인접 인스턴스를 확인합니다. 이산 및 연속 클래스 데이터에서 작동합니다. 매개변수는 샘플링할 여러 인스턴스, 확인할 다양한 이웃, 거리로 이웃에 가중치를 부여할지 여부, 거리에 따라 가중치가 감소하는 방법을 수행하는 지수 함수를 정의합니다.

InfoGain 속성 평가 − 클래스에 대한 정보 이득을 계산하여 속성을 계산합니다. 먼저 MDL 기반 이산화 접근 방식을 사용하여 숫자 속성을 이산화합니다. 이 접근 방식은 다음 세 가지와 함께 결측값을 독립적인 값으로 간주하거나 빈도에 비례하여 다른 값 사이에 개수를 분배할 수 있습니다.

카이 제곱 속성 평가 − 해당 클래스에 대한 카이제곱 통계량을 계산하여 속성을 계산합니다.

이득 비율 속성 평가 − 클래스에 대한 게인 비율을 계산하여 속성을 계산합니다.

대칭 Uncert-속성 평가 − 클래스에 대한 대칭 불확실성을 계산하여 속성을 계산합니다.

OneRAttribute 평가 − OneR 분류기에서 채택한 깨끗한 정확도 측정이 필요합니다. OneR처럼 계산을 위해 훈련 데이터가 필요하거나 내부 교차 검증을 사용할 수 있습니다. 다중 접는 매개변수입니다. OneR의 단순 이산화 접근 방식을 선택할 수 있습니다. − 최소 버킷 크기는 매개변수입니다.

SVM-속성 평가 − 선형 지원 벡터 기계로 재귀적 특징 제거를 사용하여 속성을 계산합니다. 속성은 계수의 크기에 따라 하나씩 선택되며 모든 사람이 다시 학습합니다.

실제로, 특정 수의 속성이 남을 때까지 비율을 사용할 수 있으며, 그 후 고정 수 방법으로 전환하여 많은 속성을 빠르게 제거한 다음 나머지 하나를 더 집중적으로 고려합니다.

복잡성, 엡실론, 허용 오차 및 사용된 필터링 방법과 같은 다양한 매개변수가 지원 벡터 머신에 전달됩니다.

주요 구성 요소 및 잠재 의미 분석은 속성 집합을 변환합니다. 주요 구성요소의 경우 새 속성은 고유값 순서대로 순위가 매겨집니다. 선택적으로, 분산의 주어진 비율(기본적으로 95%)을 설명하기에 충분한 고유 벡터를 선택하여 부분 집합을 선택합니다. 마지막으로 축소된 데이터를 원래 공간으로 다시 변환할 수 있습니다.

잠재 의미 분석은 훈련 데이터에 특이값 분해를 적용합니다. 특이값 분해는 주성분 분석과 관련이 있습니다. 둘 다 원래 속성 값의 선형 조합인 방향을 생성하지만 속성 상관 또는 공분산 행렬이 아닌 원래 데이터 값을 포함하는 행렬에서 계산된다는 점에서 다릅니다.