데이터 처리에 특화된 파이썬 라이브러리, Pandas
품목별 매출, 시간별 고객 유입 등 X축과 Y축으로 구성된 데이터를 다룰 때, 이러한 데이터는 일반적으로 행(row, 가로줄)
과 열(column, 세로줄)
로 구성된 표 형태로 표현됩니다.
Pandas(팬더스)
는 파이썬에서 표 형식의 데이터를 다루기 위해 가장 널리 사용되는 패키지 중 하나입니다.
Pandas를 활용하면 데이터를 불러오고 저장하는 기초적인 작업부터, 데이터 필터링 및 정렬, 통계 분석까지 다양한 작업을 체계적으로 수행할 수 있습니다.
Pandas의 데이터 구조 2가지
Pandas의 핵심 데이터 구조는 시리즈(Series)
와 데이터프레임(DataFrame)
, 2가지입니다.
1. 시리즈(Series)
시리즈는 1차원 데이터 구조
로, 엑셀에서 하나의 열(Column, 세로줄)과 비슷한 개념입니다.
파이썬 리스트(배열)와 유사하게 데이터가 순차적으로 나열됩니다.
각 데이터는 고유한 인덱스(Index, 데이터의 위치를 나타내는 식별자)를 가지며, 이 인덱스를 통해 데이터에 접근할 수 있습니다.
import pandas as pd # 시리즈 생성 data_series = pd.Series([10, 20, 30, 40]) print(data_series) # 출력 결과 # 0 10 # 1 20 # 2 30 # 3 40 # dtype: int64
2. 데이터프레임(DataFrame)
데이터프레임은 여러 개의 시리즈로 구성된 2차원 데이터 구조
입니다.
행과 열이 모두 존재하며, 각 열은 서로 다른 데이터 타입을 가질 수 있습니다.
엑셀의 표(스프레드시트)와 유사한 구조입니다.
import pandas as pd # 품목별 매출 데이터프레임 생성 data_frame = pd.DataFrame({ '품목': ['사과', '바나나', '딸기', '포도'], '매출': [1000, 2000, 1500, 3000] }) print(data_frame) # 출력 결과 # 품목 매출 # 0 사과 1000 # 1 바나나 2000 # 2 딸기 1500 # 3 포도 3000
위 코드 예시를 보면 품목
과 매출
이라는 열(Column)로 구성된 데이터프레임을 생성합니다.
예를 들어 데이터프레임을 생성하는 코드의 '품목': ['사과', '바나나', '딸기', '포도']
는 엑셀의 열(세로줄)과 같은 시리즈(Series)를 생성하며, 이러한 시리즈를 모아 데이터프레임을 구성합니다.
Pandas의 데이터 구조 중 2차원 배열로 여러 개의 시리즈가 모여 만들어진 구조는 무엇인가요?
리스트(List)
튜플(Tuple)
데이터프레임(DataFrame)
딕셔너리(Dictionary)
가이드라인
AI 튜터
배포
디자인
업로드
수업 노트
즐겨찾기
도움말
코드 에디터
실행 결과