IT
파이썬 기초 통계
astrocker
2020. 12. 30. 01:10
반응형
라이브러리 호출 및 예제 작성
import pandas as pd # 데이터 처리용 라이브러리
import numpy as np # 수치해석용 라이브러리
sr=pd.Series([10,20,30,40,50],
index=['a','b','c','d','e'],
dtype=int,name='kor')
각종 통계값 출력
print('최대값 :',sr.max())
print('최소값 :',sr.min())
print('합 계 :',sr.sum())
print('평균값 :',sr.mean())
print('중간값 :',sr.median()) # 짝수개일때 가운데 2개의 평균값 출력
print('최대값의 인덱스 :',sr.idxmax()) # 가장 큰 값의 인덱스
print('최소값의 인덱스 :',sr.idxmin())
print('사분위수 :')
print(sr.quantile([0.25,0.5,0.75]))
========== Result ==========
최대값 : 50
최소값 : 10
합 계 : 150
평균값 : 30.0
중간값 : 30.0
최대값의 인덱스 : e
최소값의 인덱스 : a
사분위수 :
0.25 20.0
0.50 30.0
0.75 40.0
Name: kor, dtype: float64
도수 계산
pd.cut(sr,5) # 가장 큰 값과 가장 작은 값 사이를 5분할. 도수..
========== Result ==========
a (9.96, 18.0]
b (18.0, 26.0]
c (26.0, 34.0]
d (34.0, 42.0]
e (42.0, 50.0]
Name: kor, dtype: category
Categories (5, interval[float64]): [(9.96, 18.0] < (18.0, 26.0] < (26.0, 34.0]
< (34.0, 42.0] < (42.0, 50.0]]
pd.cut(sr,5).value_counts()
========== Result ==========
(42.0, 50.0] 1
(34.0, 42.0] 1
(26.0, 34.0] 1
(18.0, 26.0] 1
(9.96, 18.0] 1
Name: kor, dtype: int64
pd.cut(sr,[0,10,20,30,40,50,60,70,80,90,100])
# 0보다 크고 10보다 작거나 같은 거.. 90<n<=100
========== Result ==========
a (0, 10]
b (10, 20]
c (20, 30]
d (30, 40]
e (40, 50]
Name: kor, dtype: category
Categories (10, interval[int64]): [(0, 10] < (10, 20] < (20, 30]
< (30, 40] ... (60, 70] < (70, 80] < (80, 90] < (90, 100]]
pd.cut(sr,[20,50,80,100],labels=['c','b','a'])
========== Result ==========
a NaN
b NaN
c c
d c
e c
Name: kor, dtype: category
Categories (3, object): ['c' < 'b' < 'a']
기초 통계 2에서 계속...
728x90
반응형