Computer >> 컴퓨터 >  >> 프로그램 작성 >> Python

Python에서 scikit-learn 라이브러리를 사용하여 특징 벡터에서 평균값을 제거하는 방법은 무엇입니까?

<시간/>

데이터 전처리는 데이터 정리, 유효하지 않은 데이터, 노이즈 제거, 데이터를 관련 값으로 교체하는 등의 작업을 의미합니다.

데이터 전처리는 기본적으로 모든 데이터(다양한 리소스 또는 단일 리소스에서 수집)를 공통 형식 또는 단일 데이터 세트(데이터 유형에 따라 다름)로 수집하는 작업을 의미합니다. 한 단계의 출력이 다음 단계의 입력이 되는 식입니다.

특정 결과를 얻으려면 평균 값을 입력 데이터에서 제거해야 할 수 있습니다. scikit-learn 라이브러리를 사용하여 이를 달성할 수 있는 방법을 알아보겠습니다.

import numpy as np
from sklearn import preprocessing
input_data = np.array([
[34.78, 31.9, -65.5],
[-16.5, 2.45, -83.5],
[0.5, -87.98, 45.62],
[5.9, 2.38, -55.82]])
print("Mean value is : ", input_data.mean(axis=0))
print("Standard deviation value is : ", input_data.std(axis=0))
data_scaled = preprocessing.scale(input_data)
print("Mean value has been removed ", data_scaled.mean(axis=0))
print("Standard deviation has been removed ", data_scaled.std(axis=0))

출력

<
Mean value is : [ 6.17 -12.8125 -39.8 ]
Standard deviation value is : [18.4708067 45.03642047 50.30754615]
Mean value has been removed [-2.60208521e-18 -8.32667268e-17 -1.11022302e-16]
Standard deviation has been removed [1. 1. 1.]

설명

  • 필요한 패키지를 가져옵니다.

  • 입력 데이터는 Numpy 라이브러리를 사용하여 생성됩니다.

  • 평균과 표준편차 값이 계산됩니다.

  • 콘솔에 표시됩니다.

  • 'data_scaled' 함수는 데이터에서 평균과 표준편차 값을 제거하는 데 사용됩니다.

  • 이 제거된 평균 및 표준 편차 데이터가 콘솔에 표시됩니다.