Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

주성분 분석이란 무엇입니까?

<시간/>

주성분 분석은 기계 학습에서 차원 축소에 사용되는 비지도 학습 알고리즘입니다. 상관된 기능의 관찰을 직교 데이터의 지원으로 선형적으로 상관되지 않은 기능의 모음으로 변환하는 통계 프로세스입니다. 이렇게 새롭게 변형된 기능을 주요 구성요소라고 합니다.

탐색적 데이터 분석 및 예측 모델링에 사용되는 유명한 도구입니다. 분산을 줄여서 주어진 데이터셋에서 강력한 디자인을 도출하는 접근 방식입니다.

PCA는 높은 속성이 클래스 간의 구분을 보여주기 때문에 각 속성의 분산을 처리하여 작동하므로 차원이 줄어듭니다. PCA의 일부 실제 응용 프로그램은 다양한 통신 채널에서 전력 할당을 최적화하는 이미지 처리, 영화 추천 시스템입니다. 특징 추출 방식이므로 중요한 변수는 포함하고 가장 덜 중요한 변수는 삭제합니다.

주성분 분석은 Karhunen-Loeve 또는 K-L 방법이라고도 합니다. 데이터를 나타내는 데 가장 잘 사용할 수 있는 k n차원 직교 벡터를 검색할 수 있습니다. 여기서 k ≤ n입니다. 원본 데이터는 훨씬 더 작은 영역에 투영되어 차원이 감소합니다. 대안으로 더 작은 변수 집합을 만들어 속성의 본질을 연결합니다. 그런 다음 초기 데이터를 이 더 작은 세트에 투영할 수 있습니다.

PCA에서 사용되는 다음 단계는 다음과 같습니다 -

  • 입력 데이터는 각 속성이 유사한 범위에 속하도록 정규화됩니다. 이 단계는 큰 도메인의 속성이 작은 도메인의 속성을 지배하지 않도록 하는 데 도움이 됩니다.

  • PCA는 정규화된 입력 데이터의 기반을 지원하는 k개의 직교 벡터를 평가합니다. 이들은 각각이 다른 것에 수직인 방향을 가리키는 단위 벡터입니다. 이러한 벡터는 주성분으로 정의됩니다. 입력 데이터는 주요 구성 요소의 선형 집합입니다.

  • 주요 구성 요소는 "중요도" 또는 강도가 감소하는 순서로 정렬됩니다. 주요 구성 요소는 기본적으로 데이터에 대한 새로운 축 집합의 역할을 하여 분산에 대한 중요한 정보를 제공합니다. 즉, 정렬된 축은 첫 번째 축이 데이터 중 가장 큰 분산을 표시하고 두 번째 축이 다음으로 높은 분산을 표시하는 방식으로 정렬됩니다.

  • 구성 요소는 "유의도"의 내림차순으로 정렬되기 때문에 약한 구성 요소, 즉 분산이 낮은 구성 요소를 제거하여 데이터 크기를 줄일 수 있습니다. 가장 강력한 주성분을 사용하여 원본 데이터의 좋은 근사치를 재구성할 수 있어야 합니다.