기술 통계와 값 빈도
DataFrame을 정제하고 준비했다면, 다음 단계는 데이터의 분포와 요약을 파악하는 것입니다.
Pandas는 통계 개요를 손쉽게 만들어 주는 메서드를 제공하며, 이를 통해 패턴, 오류, 인사이트를 한눈에 파악할 수 있습니다.
기술 통계 메서드
.describe()
메서드를 사용하면 모든 숫자형 열에 대한 빠른 통계 요약을 얻을 수 있습니다.
- 결측이 아닌 값의 개수
- 평균과 표준편차
- 최솟값과 최댓값
- 25%, 50%, 75% 분위수
이 메서드는 초기 데이터 프로파일링을 위한 기본 도구입니다.
value_counts()
로 범주형 분석
숫자가 아닌(범주형) 열을 요약하려면 .value_counts()
메서드를 사용할 수 있습니다.
이 메서드는 각 열에서 고유값별 빈도(개수)를 반환합니다.
value_counts() 메서드 사용 예제
df = pd.DataFrame({ "Category": ["A", "A", "B", "B", "C", "C"] }) df["Category"].value_counts() # 출력: # B 2 # A 2 # C 2
자주 쓰는 추가 메서드
메서드 | 용도 |
---|---|
mean() | 평균값 |
median() | 중앙값 |
std() | 표준편차 |
min() / max() | 최솟값과 최댓값 |
sum() | 열의 총합 |
count() | 결측이 아닌 항목 수 |
이 메서드들은 열 단위로도, DataFrame 전체에 대해서도 적용할 수 있습니다.
Quiz
0 / 1
pandas에서 DataFrame의 모든 숫자형 열에 대한 빠른 통계 요약을 얻을 때 사용하는 메서드는 무엇인가요?
.value_counts()
.mean()
.describe()
.sum()
학습 자료
AI 튜터
디자인
업로드
수업 노트
즐겨찾기
도움말