lesson1Title

lesson2Title

lesson3Title

lesson4Title

lesson5Title

lesson6Title

lesson7Title

lesson8Title

lesson9Title

lesson10Title

lesson11Title

lesson12Title

lesson13Title

lesson14Title

lesson15Title

pythonDataAnalysisAdvancedChapter4Title

pythonDataAnalysisAdvancedChapter1Title

pythonDataAnalysisAdvancedChapter2Title

pythonDataAnalysisAdvancedChapter3Title

# 데이터셋 구조: 특성과 레이블

머신러닝에서 데이터셋은 보통 다음과 같이 구성됩니다.

- `Features (X)`: 모델이 예측을 하기 위해 사용하는 입력 변수. 예: 나이, 키, 구매 횟수 등
- `Labels (y)`: 모델이 예측하려는 목표 변수. 예: 이메일이 스팸인지 여부, 아파트 가격 등

지도학습에서는 모델이 `features`와 `labels` 사이의 관계를 학습합니다.

<br/>

## 데이터셋 불러오기

앞서 사용한 `붓꽃(Iris)` 데이터셋은 `Scikit-learn`에서 기본적으로 제공하는 데이터셋입니다.

```python title="붓꽃(Iris) 데이터셋 불러오기"
# 라이브러리 불러오기
from sklearn.datasets import load_iris

# 데이터셋 불러오기
iris = load_iris()

# 특성(Features, X) - 형태: (샘플 수, 특성 수)
X = iris.data

print("특성 배열의 형태:", X.shape)
print("첫 번째 샘플의 특성:", X[0])

# 레이블(Labels, y) - 형태: (샘플 수,)
y = iris.target

print("레이블 배열의 형태:", y.shape)
print("첫 번째 레이블:", y[0])
```

<br/>

## 특성 이름과 레이블 이름 확인

다음 코드를 사용해 붓꽃 데이터셋의 특성 이름과 레이블 이름을 확인할 수 있습니다.

```python title="특성 이름과 레이블 이름"
print("특성 이름:", iris.feature_names)
print("레이블(타깃) 이름:", iris.target_names)
```

<br/>

다음은 특성과 레이블에 대한 요점은 다음과 같습니다.

* `Features`는 모델이 예측을 하기 위해 사용하는 정보입니다.

* `Labels`는 학습 시 정답을 의미합니다.

* `X`: 입력 특성, 2차원 배열 형태 `(n_samples, n_features)`.

* `y`: 타깃 레이블, 1차원 배열 형태 `(n_samples,)`.

* 데이터를 `X`와 `y`로 올바르게 구성하는 것은 `train_test_split()`나 `.fit()` 같은 사이킷런 함수들을 사용하기 위한 필수 조건입니다.

* 특성과 레이블을 적절히 분리하는 것이 학습용 데이터 준비의 첫 단계입니다.

머신러닝에서 특성은 모델에 입력 데이터를 제공하는 독립 변수입니다. 특성에는 정확한 예측에 필요한 정보가 담겨 있어 모델 학습에 매우 중요합니다. 효과적인 데이터 전처리와 모델 구축을 위해서는 특성을 올바르게 식별하고 체계적으로 구성하는 것이 필수적입니다.

데이터셋 구조: 특성과 레이블

데이터셋 불러오기

특성 이름과 레이블 이름 확인

데이터셋 구조 이해