Python은 주로 numpy, pandas, matplotlib, seaborn 등의 데이터 분석 및 시각화를 위한 수많은 라이브러리를 제공합니다. 이 섹션에서는 numpy 위에 구축된 오픈 소스 라이브러리인 데이터 분석 및 시각화를 위한 pandas 라이브러리에 대해 설명합니다.
이를 통해 빠른 분석, 데이터 정리 및 준비를 수행할 수 있습니다. Pandas는 또한 아래에서 볼 수 있는 수많은 내장 시각화 기능을 제공합니다.
pandas를 설치하려면 터미널에서 아래 명령을 실행하십시오 -
pipinstall pandas
아니면 아나콘다가 있으면 사용할 수 있습니다.
condainstall pandas
데이터 프레임은 우리가 판다와 작업할 때 주요 도구입니다.
코드 -
import numpy as np import pandas as pd from numpy.random import randn np.random.seed(50) df = pd.DataFrame(randn(6,4), ['a','b','c','d','e','f'],['w','x','y','z']) df
| w | x | y | z |
| -1.560352 | -0.030978 | -0.620928 | -1.464580 |
b | 1.411946 | -0.476732 | -0.780469 | 1.070268 |
c | -1.282293 | -1.327479 | 0.126338 | 0.862194 |
d | 0.696737 | -0.334565 | -0.997526 | 1.598908 |
| 3.314075 | 0.987770 | 0.123866 | 0.742785 |
f | -0.393956 | 0.148116 | -0.412234 | -0.160715 |
판다 - 데이터 누락
Weare는 자동으로 0 또는 nan으로 채워지는 누락된 데이터를 처리하는 몇 가지 편리한 방법을 보게 될 것입니다.
import numpy as np import pandas as pd from numpy.random import randn d = {'A': [1,2,np.nan], 'B': [9, np.nan, np.nan], 'C': [1,4,9]} df = pd.DataFrame(d) df
| A | B | C |
0 | 1.0 | 9.0 | 1 |
1 | 2.0 | NaN | 4 |
2 | NaN | NaN | 9 |
따라서 위의 3개의 누락된 값이 있습니다.
<스타일="텍스트 정렬:가운데; 너비:28.056%;" 너비="36">B
| C | ||
0 | 1.0 | 9.0 | 1 |
df.dropna(axis = 1)
| |
0 | 1 |
1 | 4 |
2 | 9 |
df.dropna(thresh = 2)
| A | B | C |
0 | 1.0 | 9.0 | 1 |
1 | 2.0 | NaN | 4 |
df.fillna(value = df.mean())
| A | B | C |
0 | 1.0 | 9.0 | 1 |
1 | 2.0 | 9.0 | 4 |
2 | 1.5 | 9.0 | 9 |
Pandas - 데이터 가져오기
우리는 로컬 머신(내 경우)에 저장되어 있거나 웹에서 직접 가져올 수 있는 csv 파일을 읽을 것입니다.
#import pandas library import pandas as pd #Read csv file and assigned it to dataframe variable df = pd.read_csv("SYB61_T03_Population Growth Rates in Urban areas and Capital cities.csv",encoding = "ISO-8859-1") #Read first five element from the dataframe df.head()
데이터 프레임 또는 csv 파일의 행과 열 수를 읽으려면
#Countthe number of rows and columns in our dataframe. df.shape
Pandas - 데이터 프레임 수학
pandas forstatistics의 다양한 도구를 사용하여 데이터 프레임에 대한 작업을 수행할 수 있습니다.
#To computes various summary statistics, excluding NaN values df.describe()
# computes numerical data ranks df.rank()
Pandas - 플롯 그래프
import matplotlib.pyplot as plt years = [1981, 1991, 2001, 2011, 2016] Average_populations = [716493000, 891910000, 1071374000, 1197658000, 1273986000] plt.plot(years, Average_populations) plt.title("Census of India: sample registration system") plt.xlabel("Year") plt.ylabel("Average_populations")
위 데이터의 산점도:
import matplotlib.pyplot as plt Average_populations = [716493000, 891910000, 1071374000, 1197658000, 1273986000] plt.hist(Average_populations, bins = 10) plt.xlabel("Average_populations") plt.ylabel("Frequency")