lesson1Title

lesson2Title

lesson3Title

lesson4Title

lesson5Title

lesson6Title

lesson7Title

lesson8Title

lesson9Title

lesson10Title

lesson11Title

lesson12Title

lesson13Title

lesson14Title

lesson15Title

lesson16Title

lesson17Title

lesson18Title

automationIntroBasicsChapter1Title

automationIntroBasicsChapter2Title

automationIntroBasicsChapter3Title

automationIntroBasicsChapter4Title

import pandas as pd

data_frame = pd.DataFrame({
    '품목': ['사과', '바나나', '딸기', '포도'],
    '매출': [1000, 2000, 1500, 3000]
})

# 요약 통계 계산
summary_stats = data_frame.describe()
print(summary_stats)

# Pandas로 데이터 요약 통계 계산하기

대규모 데이터의 `평균`, `표준편차` 등을 한 번에 계산하려면 어떻게 해야 할까요?

각 항목별로 일일이 함수를 정의하고 계산하는 것은 매우 번거로운 작업입니다.

하지만 데이터프레임의 `describe()` 메서드를 사용하면 데이터의 개수, 평균, 표준편차, 최솟값, 최댓값 등을 포함한 **요약 통계**를 한 번에 계산할 수 있습니다.

```python title="데이터 요약 통계 계산"
import pandas as pd

data_frame = pd.DataFrame({
    '품목': ['사과', '바나나', '딸기', '포도'],
    '매출': [1000, 2000, 1500, 3000]
})

# 요약 통계 계산
summary_stats = data_frame.describe()
print(summary_stats)
```

<br />

`data_frame.describe()` 코드는 데이터프레임의 요약 통계(평균, 표준편차, 최소값, 최대값 등)를 데이터프레임으로 반환합니다.

```plaintext title="describe 메서드 출력 결과"
               매출
count     4.000000
mean   1875.000000
std     866.025404
min    1000.000000
25%    1375.000000
50%    1750.000000
75%    2250.000000
max    3000.000000
```

각 항목이 의미하는 바는 다음과 같습니다.

- `count`: 데이터의 개수

- `mean`: 평균값

- `std`: 표준편차

- `min`: 최솟값

- `25%`, `50%`, `75%`: 백분위수(Percentile)

- `max`: 최댓값

<br />

## 결측치 처리

`결측치(Missing Value)`는 데이터셋에서 **값이 비어 있는 경우**를 의미합니다.

Pandas에서는 결측치를 처리하기 위한 다양한 메서드를 제공합니다.

```python title="결측치 처리 예시"
import pandas as pd

data_frame = pd.DataFrame({
    '품목': ['사과', '바나나', '딸기', None],
    '매출': [1000, 2000, 1500, None]
})

# 결측치 확인
missing_values = data_frame.isnull()

# 결측치를 0으로 대체
data_frame_filled = data_frame.fillna(0)

print(data_frame_filled)
```

```plaintext title="결측치 대체 결과"
    품목      매출
0   사과  1000.0
1  바나나  2000.0
2   딸기  1500.0
3    0     0.0
```

<br />

### 코드 설명

- `data_frame.isnull()` 코드는 데이터프레임에서 결측치가 있는 위치를 True로 표시한 데이터프레임을 반환합니다. 

- `data_frame.fillna(0)` 코드는 결측치를 0으로 대체한 데이터프레임을 반환합니다.

- `data_frame.fillna(0)` 대신 `data_frame.dropna()`를 사용하면 결측치가 포함된 행을 삭제할 수 있습니다.

Pandas의 `describe` 메서드를 사용하면 데이터프레임의 다양한 요약 통계를 쉽게 계산할 수 있습니다. 이 메서드는 데이터 분석에서 기본적으로 사용되는 중요한 도구입니다.

### 다음 빈칸에 가장 적절한 단어는 무엇일까요?

python_execution