속성이란 무엇입니까?

<시간/>

속성은 데이터 개체의 특성을 정의하는 데이터 필드입니다. 명사 속성, 차원, 특징 및 변수는 문헌에서 상응하게 사용됩니다. 차원은 일반적으로 데이터 웨어하우징에서 사용됩니다. 기계 학습 문헌은 기능이라는 용어를 사용하는 데 영향을 미치는 반면 통계학자는 가변성 방법을 선호합니다.

데이터 마이닝 및 데이터베이스 전문가는 일반적으로 속성이라는 용어를 사용합니다. 사용자 개체를 정의하는 속성에는 예를 들어 고객 ID, 이름 및 주소가 포함될 수 있습니다. 주어진 속성에 대해 관찰된 값을 관찰이라고 합니다.

속성 세트는 속성 벡터(또는 특징 벡터)로 알려진 주어진 객체를 정의할 수 있습니다. 하나의 속성(또는 변수)을 포함하는 데이터의 분포를 일변량이라고 합니다. 이변량 분포에는 두 가지 속성 등이 포함됩니다.

속성의 유형은 명목, 이진, 서수 또는 통계 속성이 가질 수 있는 가능한 값 집합에 의해 결정됩니다.

명목 속성 − 명목은 이름과의 연관을 정의합니다. 명목 속성의 값은 사물의 기호 또는 이름입니다. 각 값은 범주, 코드 또는 상태 등의 일부 유형을 정의합니다. 명목 속성은 범주형으로 정의됩니다. 값에는 중요한 순서가 없습니다. 컴퓨터 과학에서는 값을 열거라고도 합니다.

이진 속성 - 이진 속성은 0 또는 1과 같은 두 개의 요소 또는 상태만 있는 명목 속성입니다. 여기서 0은 일반적으로 속성이 없음을 정의하고 1은 속성이 있음을 정의합니다. 이진 속성은 두 상태가 true 및 false에 해당하는 경우 부울로 정의됩니다.

이진 속성은 두 상태의 가치가 동일하고 동일한 가중치를 생성하는 경우 대칭입니다. 결과가 0 또는 1로 코딩되어야 하는 기본 설정은 없습니다. 예를 들어 상태가 남성과 여성인 성(gender) 속성이 있습니다.

HIV에 대한 의료 검사의 양성 및 음성 결과를 포함하여 상태 결과가 유사하게 중요하지 않은 경우 이진 속성은 비대칭입니다. 관례에 따라 일반적으로 가장 가까운 결과(예:HIV 양성)와 다른 결과를 0(예:HIV 음성)으로 코딩할 수 있습니다.

서수 속성 − 순서 속성은 중요한 순서나 순위가 있지만 연속된 값 사이의 크기를 알 수 없는 가능한 값이 있는 속성입니다.

숫자 속성 - 숫자 속성은 양적입니다. 정수 또는 실수 값으로 정의된 측정 가능한 양입니다. 간격 스케일 또는 비율 스케일이 가능합니다.