lesson1Title

lesson2Title

lesson3Title

lesson4Title

lesson5Title

lesson6Title

lesson7Title

lesson8Title

lesson9Title

lesson10Title

lesson11Title

lesson12Title

lesson13Title

lesson14Title

lesson15Title

pythonDataAnalysisAdvancedChapter4Title

pythonDataAnalysisAdvancedChapter1Title

pythonDataAnalysisAdvancedChapter2Title

pythonDataAnalysisAdvancedChapter3Title

# Scikit-learn 소개

`Scikit-learn`(또는 `sklearn`)은 머신러닝을 위한 대표적인 오픈 소스 라이브러리입로, 데이터 분석 및 예측 모델링 과정에서 널리 활용됩니다.

머신러닝을 처음 접하는 사람부터 전문가까지 모두 쉽게 다룰 수 있는 직관적이고 일관된 API를 제공하는 것이 특징입니다.

> 머신러닝(Machine Learning): 컴퓨터가 과거 데이터를 학습해 패턴을 발견하고, 이를 바탕으로 새로운 데이터를 예측하거나 분류하는 기술

데이터 분석에서 머신러닝은 

`Scikit-learn`은 머신러닝 모델을 만들기 위한 다양한 알고리즘과 데이터 처리 기능을 제공합니다.

또한 `NumPy`, `SciPy`, `Matplotlib`과 함께 연동해 사용할 수 있으며, 초보자와 전문가 모두 쉽게 사용 가능한 직관적인 API를 제공합니다.

<br/>

## Scikit-learn과 데이터 분석의 연관성

데이터 분석에서는 단순히 데이터를 요약하거나 시각화하는 것뿐 아니라, 패턴을 발견하고 미래를 예측하는 단계로 확장하는 경우가 많습니다.

`Scikit-learn`은 이 과정을 자연스럽게 연결해 주는 도구입니다.

아래에서 데이터 분석 과정에서 `Scikit-learn`이 어떻게 활용될 수 있는지 확인할 수 있습니다.

<br/>

### 데이터 전처리(Preprocessing)

분석 단계에서 정제한 데이터를 학습 가능한 형태로 변환

예: 특성 스케일링, 범주형 인코딩, 결측치 처리

### 패턴 탐색

회귀·분류 모델을 활용해 데이터 속 숨겨진 규칙을 발견

예: 사용자 행동 패턴, 매출 변화 원인 등 분석

### 예측 모델링

과거 데이터를 기반으로 미래 값을 예측

예: 수요 예측, 고객 이탈 예측, 추천 시스템

### 데이터 시각화

Matplotlib이나 Seaborn으로 탐색적 분석을 수행한 후, Scikit-learn 모델과 결합해 예측 결과를 시각화

<br/>

## 설치하기

다음 명령으로 Scikit-learn을 설치할 수 있습니다.

```bash
pip install scikit-learn
```

설치 후 다음과 같이 라이브러리를 불러올 수 있습니다.

```python
import sklearn
```

<br/>

## 예시: 간단한 모델 학습

아래 코드는 붓꽃 데이터셋을 사용해 KNN(K-Nearest Neighbors) 분류 모델을 학습하고 평가하는 예제입니다.

KNN 알고리즘은 가장 가까운 이웃 데이터의 레이블을 예측값으로 사용하는 머신러닝 알고리즘입니다.

아직 코드의 의미를 정확히 이해하기 어렵더라도, 코드를 실행해 보면서 머신러닝 모델을 만드는 과정을 큰 틀에서 경험해 보시기 바랍니다.

```python title="아이리스 데이터셋으로 KNN 분류"
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

# 데이터셋 불러오기
iris = load_iris()

# 학습/테스트 세트 분할
X_train, X_test, y_train, y_test = train_test_split(
    iris.data, iris.target, test_size=0.2, random_state=42
)

# 모델 생성 및 학습
model = KNeighborsClassifier(n_neighbors=3)

# 모델 학습
model.fit(X_train, y_train)

# 모델 평가
accuracy = model.score(X_test, y_test)

# 결과 출력
print(f"정확도: {accuracy:.2f}")
```

Scikit-learn은 분류, 회귀, 군집화, 차원 축소 등과 같은 머신러닝 작업에 널리 사용됩니다.

### `Scikit-learn`은 파이썬용 머신러닝 라이브러리다.

Scikit-learn 소개

Scikit-learn과 데이터 분석의 연관성

데이터 전처리(Preprocessing)

패턴 탐색

예측 모델링

데이터 시각화

설치하기

예시: 간단한 모델 학습

Scikit-learn은 파이썬용 머신러닝 라이브러리다.

`Scikit-learn`은 파이썬용 머신러닝 라이브러리다.