Pandas로 데이터 요약 통계 계산하기
대규모 데이터의 평균
, 표준편차
등을 한 번에 계산하려면 어떻게 해야 할까요?
각 항목별로 일일이 함수를 정의하고 계산하는 것은 매우 번거로운 작업입니다.
하지만 데이터프레임의 describe()
메서드를 사용하면 데이터의 개수, 평균, 표준편차, 최솟값, 최댓값 등을 포함한 요약 통계를 한 번에 계산할 수 있습니다.
데이터 요약 통계 계산
import pandas as pd data_frame = pd.DataFrame({ '품목': ['사과', '바나나', '딸기', '포도'], '매출': [1000, 2000, 1500, 3000] }) # 요약 통계 계산 summary_stats = data_frame.describe() print(summary_stats)
data_frame.describe()
코드는 데이터프레임의 요약 통계(평균, 표준편차, 최소값, 최대값 등)를 데이터프레임으로 반환합니다.
describe 메서드 출력 결과
매출 count 4.000000 mean 1875.000000 std 866.025404 min 1000.000000 25% 1375.000000 50% 1750.000000 75% 2250.000000 max 3000.000000
각 항목이 의미하는 바는 다음과 같습니다.
-
count
: 데이터의 개수 -
mean
: 평균값 -
std
: 표준편차 -
min
: 최솟값 -
25%
,50%
,75%
: 백분위수(Percentile) -
max
: 최댓값
결측치 처리
결측치(Missing Value)
는 데이터셋에서 값이 비어 있는 경우를 의미합니다.
Pandas에서는 결측치를 처리하기 위한 다양한 메서드를 제공합니다.
결측치 처리 예시
import pandas as pd data_frame = pd.DataFrame({ '품목': ['사과', '바나나', '딸기', None], '매출': [1000, 2000, 1500, None] }) # 결측치 확인 missing_values = data_frame.isnull() # 결측치를 0으로 대체 data_frame_filled = data_frame.fillna(0) print(data_frame_filled)
결측치 대체 결과
품목 매출 0 사과 1000.0 1 바나나 2000.0 2 딸기 1500.0 3 0 0.0
코드 설명
-
data_frame.isnull()
코드는 데이터프레임에서 결측치가 있는 위치를 True로 표시한 데이터프레임을 반환합니다. -
data_frame.fillna(0)
코드는 결측치를 0으로 대체한 데이터프레임을 반환합니다. -
data_frame.fillna(0)
대신data_frame.dropna()
를 사용하면 결측치가 포함된 행을 삭제할 수 있습니다.
Mission
0 / 1
다음 빈칸에 가장 적절한 단어는 무엇일까요?
데이터프레임의 요약 통계를 계산하려면 메서드를 사용합니다.
describe
summary
mean
aggregate
학습 자료
AI 튜터
배포
디자인
업로드
수업 노트
즐겨찾기
도움말
코드 에디터
코드 실행
코드 생성
실행 결과