Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

속성 테스트 조건을 표현하는 방법은 무엇입니까?

<시간/>

결정 트리 유도는 클래스 레이블이 지정된 학습 튜플에서 결정 트리를 학습하는 것입니다. 의사 결정 트리는 모든 내부 노드(리프가 아닌 노드)가 속성에 대한 테스트를 나타내고, 각 분기가 테스트의 결과를 정의하고, 각 리프 노드(또는 터미널 노드)가 클래스에 영향을 미치는 순차적 다이어그램과 같은 트리 구조입니다. 상표. 트리에서 가장 큰 노드는 루트 노드입니다.

의사 결정 트리 유도는 각 내부(리프가 아닌) 노드가 속성에 대한 테스트를 나타내고, 각 분기가 테스트 결과에 해당하고, 각 외부(리프) 노드가 클래스 예측을 나타내는 순서도와 같은 구조를 생성합니다.

각 노드에서 알고리즘은 "최상의" 속성을 선택하여 데이터를 단일 클래스로 나눕니다. 속성 하위 집합 선택에 의사 결정 트리 유도를 사용하면 주어진 데이터에서 트리가 생성됩니다.

트리에 없는 일부 속성은 관련이 없는 것으로 간주됩니다. 트리에서 발생하는 속성 집합은 속성의 감소된 하위 집합을 형성합니다. 의사결정 트리 유도 알고리즘은 속성 테스트 조건과 여러 속성 유형에 대한 상관 결과를 정의하기 위한 접근 방식을 지원합니다.

이진 속성 - 이진 속성은 0 또는 1을 포함하는 두 개의 요소 또는 상태만 있는 명목 속성입니다. 여기서 0은 종종 속성이 없음을 나타내고 1은 속성이 있음을 나타냅니다. 이진 속성은 두 상태가 true 및 false와 동일한 경우 부울로 정의됩니다.

이진 속성은 두 상태의 가치가 동일하고 가중치가 동일한 경우 대칭입니다. 결과가 0 또는 1로 코딩되어야 하는 기본 설정은 없습니다. 예를 들어 상태가 남성과 여성인 성(gender) 속성이 있습니다.

HIV에 대한 건강 검진의 긍정적 및 부정적 결과와 같이 상태의 결과가 동등하게 필수가 아닌 경우 이진 속성은 비대칭입니다. 관례에 따라 일반적으로 가장 가까운 결과(예:HIV 양성)와 다른 결과를 0(예:HIV 음성)으로 코딩할 수 있습니다.

명목 속성 − 명목은 이름과의 연관을 정의합니다. 명목 속성의 값은 사물의 기호 또는 이름입니다. 각 값은 범주, 코드 또는 상태 등의 일부 유형을 정의합니다. 명목 속성은 범주형으로 정의됩니다. 값에는 중요한 순서가 없습니다. 컴퓨터 과학에서는 값을 열거라고도 합니다.

서수 속성 − 순서 속성은 필수 계열 또는 순위가 있지만 연속 값 사이의 크기를 알 수 없는 적용 가능한 값이 있는 속성입니다.

서수 속성은 이진 또는 다중 분할을 만들 수 있습니다. 서수 속성 값은 그룹화가 속성 값의 순서 특성을 위반하지 않는다는 점을 고려하여 결합될 수 있습니다.

숫자 속성 - 숫자 속성은 양적입니다. 수치 또는 실제 값으로 표시되는 계산 가능한 양입니다. 간격 스케일 또는 비율 스케일이 가능합니다.