결측치와 중복 데이터 처리
현실 세계에서 다루는 데이터셋은 거의 항상 불완전합니다.
분석 과정에서 결측값(Missing Values)
이나 중복 행(Duplicated Rows)
을 그대로 두면 결과를 왜곡할 수 있으므로, 이를 적절히 처리하는 것이 중요합니다.
Pandas
는 이러한 문제를 쉽게 탐색하고 정리할 수 있는 다양한 기능을 제공합니다.
예를 들어, 특정 열에서 결측값이 얼마나 있는지 확인하거나, 중복된 데이터를 한 번에 제거하는 작업을 간단한 메서드 호출만으로 수행할 수 있습니다.
결측 데이터 처리
Pandas
에서는 결측값을 보통 NaN
(Not a Number)으로 표현합니다.
이 결측값에 대해서는 다음과 같은 작업을 수행할 수 있습니다.
- 결측값 탐지:
.isnull()
또는.notnull()
사용 - 결측 데이터 삭제:
.dropna()
사용 - 결측 데이터 채우기:
.fillna()
사용(예: 기본값으로 채우거나 이전 값으로 채우기)
중복 데이터 처리
중복 행은 데이터 입력 오류나 데이터셋 병합 과정에서 발생할 수 있습니다.
.duplicated()
로 중복을 표시.drop_duplicates()
로 제거
주요 메서드
작업 | 메서드 | 설명 |
---|---|---|
결측 탐지 | df.isnull() | 결측값에 대해 True를 표시 |
결측 행 삭제 | df.dropna() | 하나라도 NaN이 있는 행을 제거 |
결측값 채우기 | df.fillna(value) | NaN을 지정한 값으로 대체 |
중복 탐지 | df.duplicated() | 불리언 시리즈 반환 |
중복 제거 | df.drop_duplicates() | 중복 행을 제거 |
Quiz
0 / 1
Pandas를 사용해 DataFrame(데이터프레임)의 누락된 데이터를 어떻게 채울 수 있나요?
NaN을 지정한 값으로 바꾸려면 메서드를 사용할 수 있습니다.
.isnull()
.dropna()
.fillna()
.duplicated()
학습 자료
AI 튜터
디자인
업로드
수업 노트
즐겨찾기
도움말