Computer >> 컴퓨터 >  >> 프로그램 작성 >> Python

Python의 데이터 분석 및 시각화?

<시간/>

Python은 주로 numpy, pandas, matplotlib, seaborn 등의 데이터 분석 및 시각화를 위한 수많은 라이브러리를 제공합니다. 이 섹션에서는 numpy 위에 구축된 오픈 소스 라이브러리인 데이터 분석 및 시각화를 위한 pandas 라이브러리에 대해 설명합니다.

이를 통해 빠른 분석, 데이터 정리 및 준비를 수행할 수 있습니다. Pandas는 또한 아래에서 볼 수 있는 수많은 내장 시각화 기능을 제공합니다.

설치

pandas를 설치하려면 터미널에서 아래 명령을 실행하십시오 -

pipinstall pandas

아니면 아나콘다가 있으면 사용할 수 있습니다.

condainstall pandas

Pandas-DataFrames

데이터 프레임은 우리가 판다와 작업할 때 주요 도구입니다.

코드 -

import numpy as np
import pandas as pd
from numpy.random import randn
np.random.seed(50)
df = pd.DataFrame(randn(6,4), ['a','b','c','d','e','f'],['w','x','y','z'])
df

출력


w
x
y
z

-1.560352
-0.030978
-0.620928
-1.464580
b
1.411946
-0.476732
-0.780469
1.070268
c
-1.282293
-1.327479
0.126338
0.862194
d
0.696737
-0.334565
-0.997526
1.598908

3.314075
0.987770
0.123866
0.742785
f
-0.393956
0.148116
-0.412234
-0.160715

판다 - 데이터 누락

Weare는 자동으로 0 또는 nan으로 채워지는 누락된 데이터를 처리하는 몇 가지 편리한 방법을 보게 될 것입니다.

import numpy as np
import pandas as pd
from numpy.random import randn
d = {'A': [1,2,np.nan], 'B': [9, np.nan, np.nan], 'C': [1,4,9]}
df = pd.DataFrame(d)
df

출력



A
B
C
0
1.0
9.0
1
1
2.0
NaN
4
2
NaN
NaN
9

따라서 위의 3개의 누락된 값이 있습니다.

df.dropna()


<스타일="텍스트 정렬:가운데; 너비:27.8558%;" 너비="36">A
<스타일="텍스트 정렬:가운데; 너비:28.056%;" 너비="36">B


C
0
1.0
9.0
1


df.dropna(axis = 1)


<스타일="텍스트 정렬:가운데; 너비:69.8782%;" 너비="26">C


0
1
1
4
2
9


df.dropna(thresh = 2)




A
B
C
0
1.0
9.0
1
1
2.0
NaN
4


df.fillna(value = df.mean())




A
B
C
0
1.0
9.0
1
1
2.0
9.0
4
2
1.5
9.0
9

Pandas - 데이터 가져오기

우리는 로컬 머신(내 경우)에 저장되어 있거나 웹에서 직접 가져올 수 있는 csv 파일을 읽을 것입니다.

#import pandas library
import pandas as pd

#Read csv file and assigned it to dataframe variable
df = pd.read_csv("SYB61_T03_Population Growth Rates in Urban areas and Capital cities.csv",encoding = "ISO-8859-1")

#Read first five element from the dataframe
df.head()

출력

Python의 데이터 분석 및 시각화?

데이터 프레임 또는 csv 파일의 행과 열 수를 읽으려면

#Countthe number of rows and columns in our dataframe.
df.shape

출력

(4166,9)

Pandas - 데이터 프레임 수학

pandas forstatistics의 다양한 도구를 사용하여 데이터 프레임에 대한 작업을 수행할 수 있습니다.

#To computes various summary statistics, excluding NaN values
df.describe()

출력

Python의 데이터 분석 및 시각화?

# computes numerical data ranks
df.rank()

출력

Python의 데이터 분석 및 시각화?

.....

.....

Python의 데이터 분석 및 시각화?

Pandas - 플롯 그래프

import matplotlib.pyplot as plt
years = [1981, 1991, 2001, 2011, 2016]

Average_populations = [716493000, 891910000, 1071374000, 1197658000, 1273986000]

plt.plot(years, Average_populations)
plt.title("Census of India: sample registration system")
plt.xlabel("Year")
plt.ylabel("Average_populations")
plt.show()

출력

Python의 데이터 분석 및 시각화?

위 데이터의 산점도:

plt.scatter(years,Average_populations)


Python의 데이터 분석 및 시각화?

히스토그램:

import matplotlib.pyplot as plt

Average_populations = [716493000, 891910000, 1071374000, 1197658000, 1273986000]

plt.hist(Average_populations, bins = 10)
plt.xlabel("Average_populations")
plt.ylabel("Frequency")

plt.show()

출력

Python의 데이터 분석 및 시각화?