파이썬 기초 통계

astrocker 2020. 12. 30. 01:10

라이브러리 호출 및 예제 작성

import pandas as pd # 데이터 처리용 라이브러리
import numpy as np  # 수치해석용 라이브러리

sr=pd.Series([10,20,30,40,50],
             index=['a','b','c','d','e'],
             dtype=int,name='kor')

각종 통계값 출력

print('최대값 :',sr.max())
print('최소값 :',sr.min())
print('합  계 :',sr.sum())
print('평균값 :',sr.mean())
print('중간값 :',sr.median()) # 짝수개일때 가운데 2개의 평균값 출력
print('최대값의 인덱스 :',sr.idxmax()) # 가장 큰 값의 인덱스
print('최소값의 인덱스 :',sr.idxmin())
print('사분위수 :')
print(sr.quantile([0.25,0.5,0.75]))
========== Result ==========
최대값 : 50
최소값 : 10
합  계 : 150
평균값 : 30.0
중간값 : 30.0
최대값의 인덱스 : e
최소값의 인덱스 : a
사분위수 :
0.25    20.0
0.50    30.0
0.75    40.0
Name: kor, dtype: float64

도수 계산

pd.cut(sr,5) # 가장 큰 값과 가장 작은 값 사이를 5분할. 도수..
========== Result ==========
a    (9.96, 18.0]
b    (18.0, 26.0]
c    (26.0, 34.0]
d    (34.0, 42.0]
e    (42.0, 50.0]
Name: kor, dtype: category
Categories (5, interval[float64]): [(9.96, 18.0] < (18.0, 26.0] < (26.0, 34.0]
					< (34.0, 42.0] < (42.0, 50.0]]
                    
pd.cut(sr,5).value_counts()
========== Result ==========
(42.0, 50.0]    1
(34.0, 42.0]    1
(26.0, 34.0]    1
(18.0, 26.0]    1
(9.96, 18.0]    1
Name: kor, dtype: int64

pd.cut(sr,[0,10,20,30,40,50,60,70,80,90,100]) 
# 0보다 크고 10보다 작거나 같은 거.. 90<n<=100
========== Result ==========
a     (0, 10]
b    (10, 20]
c    (20, 30]
d    (30, 40]
e    (40, 50]
Name: kor, dtype: category
Categories (10, interval[int64]): [(0, 10] < (10, 20] < (20, 30] 
< (30, 40] ... (60, 70] < (70, 80] < (80, 90] < (90, 100]]

pd.cut(sr,[20,50,80,100],labels=['c','b','a'])
========== Result ==========
a    NaN
b    NaN
c      c
d      c
e      c
Name: kor, dtype: category
Categories (3, object): ['c' < 'b' < 'a']

기초 통계 2에서 계속...

728x90

저작자표시 비영리 동일조건