가이드라인

Pandas로 데이터 요약 통계 계산하기

Pandas를 활용하면 데이터프레임의 요약 통계를 계산하거나, 데이터를 그룹화하고 집계하는 등 다양한 데이터 처리 작업을 수행할 수 있습니다.

데이터 요약 통계 계산
import pandas as pd data_frame = pd.DataFrame({ '품목': ['사과', '바나나', '딸기', '포도'], '매출': [1000, 2000, 1500, 3000] }) # 요약 통계 계산 summary_stats = data_frame.describe() print(summary_stats)

summary_stats = data_frame.describe() 코드는 데이터프레임의 요약 통계(평균, 표준편차, 최소값, 최대값 등)를 계산하여 데이터프레임으로 반환합니다.

print(summary_stats) 출력 결과
매출 count 4.000000 mean 1875.000000 std 866.025404 min 1000.000000 25% 1375.000000 50% 1750.000000 75% 2250.000000 max 3000.000000

각 항목은 다음을 의미합니다.

  • count: 데이터의 개수

  • mean: 평균값

  • std: 표준편차

  • min: 최솟값

  • 25%, 50%, 75%: 백분위수(Percentile)

  • max: 최댓값


결측치 처리

결측치(Missing Value)는 데이터셋에서 값이 비어 있는 경우를 의미합니다.

Pandas에서는 결측치를 처리하기 위한 다양한 메서드를 제공합니다.

결측치 처리 예시
import pandas as pd data_frame = pd.DataFrame({ '품목': ['사과', '바나나', '딸기', None], '매출': [1000, 2000, 1500, None] }) # 결측치 확인 missing_values = data_frame.isnull() # 결측치를 0으로 대체 data_frame_filled = data_frame.fillna(0) print(data_frame_filled)
  • data_frame.isnull() 코드는 데이터프레임에서 결측치가 있는 위치를 True로 표시한 데이터프레임을 반환합니다.

  • data_frame.fillna(0) 코드는 결측치를 0으로 대체한 데이터프레임을 반환합니다.

  • data_frame.fillna(0) 대신 data_frame.dropna()를 사용하면 결측치가 포함된 행을 삭제할 수 있습니다.

Mission
0 / 1

다음 빈칸에 가장 적절한 단어는 무엇일까요?

데이터프레임의 요약 통계를 계산하려면 메서드를 사용합니다.
describe
summary
mean
aggregate

가이드라인

AI 튜터

배포

디자인

업로드

수업 노트

즐겨찾기

도움말

코드 에디터

코드 실행
코드 생성

실행 결과