Python의 분할표

<시간/>

분할표는 행에 한 변수의 분포와 열에 다른 변수의 분포를 보여주는 표입니다. 두 변수 간의 상관 관계를 연구하는 데 사용됩니다. 각 관찰이 여러 변수 각각에 대해 하나의 범주에 속하는 데이터 세트를 설명하는 다원 테이블입니다. 또한 기본적으로 둘 이상의 범주형 변수 사이의 개수를 집계한 것입니다. 분할표는 교차 분석 또는 양방향 표라고도 하며 통계에서 여러 범주형 변수 간의 관계를 요약하는 데 사용됩니다.

우발 계수는 두 변수 또는 데이터 세트가 서로 독립인지 종속인지를 알려주는 연관 계수로 피어슨 계수라고도 합니다.

예

아래 예에서는 분석을 위해 붓꽃 데이터 세트를 사용합니다. 이 데이터 세트는 3종의 Iris(Iris setosa, Iris virginica 및 Iris versicolor) 각각의 50개 샘플로 구성됩니다. 각 샘플에서 4가지 특징이 측정되었습니다:꽃받침과 꽃잎의 길이와 너비(센티미터 단위). 우리는 궁극적으로 종을 서로 구별하는 데 사용될 이러한 기능에 대한 비상 모델을 만들 것입니다.

데이터 세트 읽기

예

numpy를 npimport로 pddatainput =pd.read_csv("iris.csv")print(datainput.head(5))로 가져오기

위의 코드를 실행하면 다음과 같은 결과가 나타납니다.

SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Species0 5.1 3.5 1.4 0.2 Iris-setosa1 4.9 3.0 1.4 0.2 Iris-setosa2 4.7 3.2 1.3 0.2 Iris-setosa3.0 .2.6 Iris-setosa3.0 .2.6 setosa

데이터의 일반 통계

다음으로 describe()를 사용하여 데이터의 일반 통계를 수집합니다. IT 부서는 데이터 배포 방식의 평균과 다양한 사분위수에 대한 아이디어를 제공합니다.

예

numpy를 npimport로 pddatainput =pd.read_csv("iris.csv")print(datainput.describe())로 가져오기

위의 코드를 실행하면 다음과 같은 결과가 나타납니다.

SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCmcount를

150.000000 150.000000 150.000000 5.843333 3.054000 3.758667 150.000000mean 1.198667std 0.828066 0.433594 1.764420 4.300000 2.000000 1.000000 0.763161min % 0.10000025 5.100000 2.800000 1.600000 5.800000 3.000000 % 0.30000050 4.350000 1.30000075 6.400000 3.300000 5.100000 % 1.800000max 7.900000 4.400000 6.900000 2.500000

데이터 유형

다음으로 데이터 프레임에 있는 열의 다양한 데이터 유형을 관찰합니다.

예

numpy를 npimport로 pandas를 pddatainput =pd.read_csv("iris.csv")print(datainput.dtypes)로 가져오기

위의 코드를 실행하면 다음과 같은 결과가 나타납니다.

SepalLengthCm float64SepalWidthCm float64PetalLengthCm float64PetalWidthCm float64Species 개체 유형:개체

분할표 작성

이제 각 종의 꽃잎 너비를 보여주는 열에 대한 분할표를 만듭니다. 이를 위해 우리는 pandas에서 사용할 수 있는 크로스탭 기능을 사용하고 이러한 견인 열의 이름을 입력으로 제공합니다.

예

numpy를 npimport로 pandas를 pddatainput =pd.read_csv("iris.csv")width_species =pd.crosstab(datainput['PetalWidthCm'],datainput['Species'],margins =False)print(width_species)

위의 코드를 실행하면 다음과 같은 결과가 나타납니다.

종 Iris-setosa Iris-versicolor Iris-virginicaPetalWidthCm0.1 6 0 00.2 28 0 00.3 7 0 01.0 0 7 01.1 0 3 01.2 0 5 01.8 0 1 111.9 0 1 111.9 0 사전>

다변수 분할표

이 경우 분할표를 만들기 위해 세 개 이상의 열을 사용합니다. 여기에서는 각 종 유형에 대해 꽃잎 길이와 꽃잎 너비를 모두 사용합니다.

numpy를 npimport로 pandas를 pddatainput =pd.read_csv("iris.csv")length_width_species =pd.crosstab([datainput.PetalLengthCm, datainput.PetalWidthCm],datainput.Species, margins =False)print( 
 위의 코드를 실행하면 다음과 같은 결과가 나타납니다.
 종 Iris-setosa Iris-versicolor Iris-virginicaPetalLengthCm PetalWidthCm1.0 0.2 1 0 01.1 0.1 1 0 01.2 0.2 2 0 01.3 0.2 4 0 00.3 2 0 .0 ... 4 ... 0 16.6 2.1 0 0 16.7 2.0 0 0 12.2 0 0 16.9 2.3 0 0 1