학습 자료

Scikit-learn 소개

Scikit-learn(또는 sklearn)은 머신러닝을 위한 가장 널리 사용되는 오픈 소스 Python 라이브러리 중 하나입니다.

분류, 회귀, 군집화, 차원 축소, 모델 선택, 데이터 전처리 등 다양한 작업을 위한 효율적인 도구를 제공합니다.

NumPy, SciPy, Matplotlib과 함께 연동해 사용할 수 있으며, 초보자와 전문가 모두 쉽게 사용 가능한 직관적인 API를 제공합니다.


Scikit-learn을 사용하는 이유

Scikit-learn이 머신러닝에서 필수 라이브러리로 자리 잡은 이유는 다음과 같습니다.

  • 다양한 알고리즘: 지도학습과 비지도학습 알고리즘 모두 지원
  • 일관된 API: 모델 전반에서 동일한 인터페이스 제공
  • 강력한 전처리 도구: 스케일링, 인코딩, 변환 등 데이터 처리 유틸리티 내장
  • 모델 평가 기능: 다양한 평가 지표와 검증 도구 제공
  • 높은 통합성: NumPy 배열과 Pandas 데이터프레임과 매끄럽게 연동

설치하기

다음 명령으로 Scikit-learn을 설치할 수 있습니다.

pip install scikit-learn

설치 후 다음과 같이 라이브러리를 불러올 수 있습니다.

import sklearn

예시: 간단한 모델 학습

아래 코드는 붓꽃 데이터셋을 사용해 KNN(K-Nearest Neighbors) 분류 모델을 학습하고 평가하는 예제입니다.

KNN 알고리즘은 가장 가까운 이웃 데이터의 레이블을 예측값으로 사용하는 머신러닝 알고리즘입니다.

아이리스 데이터셋으로 KNN 분류
from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier # 데이터셋 불러오기 iris = load_iris() X_train, X_test, y_train, y_test = train_test_split( iris.data, iris.target, test_size=0.2, random_state=42 ) # 모델 생성 및 학습 model = KNeighborsClassifier(n_neighbors=3) model.fit(X_train, y_train) # 모델 평가 accuracy = model.score(X_test, y_test) print(f"정확도: {accuracy:.2f}")

코드를 통해 다음과 같은 작업을 수행할 수 있습니다.

  1. 데이터셋 로드
  2. 학습/테스트 세트 분할
  3. 머신러닝 모델 생성 및 학습
  4. 모델 성능 평가
Quiz
0 / 1

Scikit-learn은 파이썬용 머신러닝 라이브러리다.

학습 자료

AI 튜터

디자인

업로드

수업 노트

즐겨찾기

도움말