데이터셋 구조: 특성과 레이블
머신러닝에서 데이터셋은 보통 다음과 같이 구성됩니다.
Features (X)
: 모델이 예측을 하기 위해 사용하는 입력 변수. 예: 나이, 키, 구매 횟수 등.Labels (y)
: 모델이 예측하려는 목표 변수. 예: 이메일이 스팸인지 여부, 아파트 가격 등.
지도학습에서는 모델이 features
와 labels
사이의 관계를 학습합니다.
데이터셋 불러오기
앞서 사용한 붓꽃(Iris) 데이터셋은 Scikit-learn에서 기본적으로 제공하는 데이터셋입니다.
붓꽃(Iris) 데이터셋 불러오기
from sklearn.datasets import load_iris iris = load_iris() # 특성(Features, X) - 형태: (샘플 수, 특성 수) X = iris.data print("특성 배열의 형태:", X.shape) print("첫 번째 샘플의 특성:", X[0]) # 레이블(Labels, y) - 형태: (샘플 수,) y = iris.target print("레이블 배열의 형태:", y.shape) print("첫 번째 레이블:", y[0])
특성 이름과 레이블 이름 확인
다음 코드를 사용해 붓꽃 데이터셋의 특성 이름과 레이블 이름을 확인할 수 있습니다.
특성 이름과 레이블 이름
print("특성 이름:", iris.feature_names) print("레이블(타깃) 이름:", iris.target_names)
다음은 특성과 레이블에 대한 요점은 다음과 같습니다.
-
Features
는 모델이 예측을 하기 위해 사용하는 정보입니다. -
Labels
는 학습 시 정답을 의미합니다. -
X
: 입력 특성, 2차원 배열 형태(n_samples, n_features)
. -
y
: 타깃 레이블, 1차원 배열 형태(n_samples,)
. -
데이터를
X
와y
로 올바르게 구성하는 것은train_test_split()
나.fit()
같은 사이킷런 함수들을 사용하기 위한 필수 조건입니다. -
특성과 레이블을 적절히 분리하는 것이 학습용 데이터 준비의 첫 단계입니다.
Quiz
0 / 1
데이터셋 구조 이해
머신러닝에 사용되는 데이터셋에서 입력 변수는 라고 부릅니다.
특성
레이블
타깃
출력
학습 자료
AI 튜터
디자인
업로드
수업 노트
즐겨찾기
도움말