학습 자료

결측치와 중복 데이터 처리

현실 세계의 데이터셋은 거의 완벽하지 않습니다.

분석을 왜곡할 수 있는 결측값이나 중복 행을 자주 마주하게 됩니다.

Pandas는 이러한 문제를 효율적으로 식별하고 처리할 수 있는 유용한 도구를 제공합니다.


결측 데이터 처리

pandas에서는 결측값을 보통 NaN(Not a Number)으로 표현합니다.

이 결측값에 대해서는 다음과 같은 작업을 수행할 수 있습니다.

  • 결측값 탐지: .isnull() 또는 .notnull() 사용
  • 결측 데이터 삭제: .dropna() 사용
  • 결측 데이터 채우기: .fillna() 사용(예: 기본값으로 채우거나 이전 값으로 채우기)

평균, 합계, 상관관계 같은 연산을 수행하기 전에 결측값을 처리하는 것은 매우 중요합니다. 그렇지 않으면 데이터 분석 결과가 왜곡될 수 있습니다.


중복 데이터 처리

중복 행은 데이터 입력 오류나 데이터셋 병합 과정에서 발생할 수 있습니다.

  • .duplicated()로 중복을 표시
  • .drop_duplicates()로 제거

항상 데이터의 맥락에서 중복이 의미가 있는지 확인하세요. 모든 반복이 나쁜 것은 아닙니다.


요약

작업메서드설명
결측 탐지df.isnull()결측값에 대해 True를 표시
결측 행 삭제df.dropna()하나라도 NaN이 있는 행을 제거
결측값 채우기df.fillna(value)NaN을 지정한 값으로 대체
중복 탐지df.duplicated()불리언 시리즈 반환
중복 제거df.drop_duplicates()중복 행을 제거
Quiz
0 / 1

Pandas를 사용해 DataFrame(데이터프레임)의 누락된 데이터를 어떻게 채울 수 있나요?

NaN을 지정한 값으로 바꾸려면 메서드를 사용하세요.
.isnull()
.dropna()
.fillna()
.duplicated()

학습 자료

AI 튜터

디자인

업로드

수업 노트

즐겨찾기

도움말