lesson1Title

lesson2Title

lesson3Title

lesson4Title

lesson5Title

lesson6Title

lesson7Title

lesson8Title

lesson9Title

lesson10Title

lesson11Title

lesson12Title

aiFineTuningBasicsChapter2Title

lesson13Title

aiFineTuningBasicsChapter1Title

aiFineTuningBasicsChapter3Title

# AI를 조련하기 위한 준비물, 데이터셋(Dataset)

`데이터셋`(Dataset)은 AI 모델 학습 및 검증 등 특정한 목적을 위해 수집 및 정리된 **데이터의 모음**을 뜻합니다.

이전 수업에서 만든 파인튜닝을 위한 JSONL 파일도 데이터셋의 한 형태로 볼 수 있습니다.

<br />

## 데이터셋에 어떤 데이터를 담을까요?

데이터셋에는 표, 이미지, 텍스트, 시계열 데이터 등 다양한 형태의 데이터를 담을 수 있습니다.

- *표형 데이터 (Tabular Data)*: 행과 열로 구성된 테이블 형식의 데이터입니다. CSV, Excel, SQL 테이블 등이 여기에 해당합니다.

- *이미지 데이터 (Image Data)*: PNG, JPG와 같은 이미지 파일들의 집합입니다. 주로 컴퓨터 비전에 활용됩니다.

- *텍스트 데이터 (Text Data)*: 문서, 문장, 단어 등 텍스트 형태의 데이터입니다. 자연어 처리(NLP)에 많이 사용됩니다.

- *시계열 데이터 (Time Series Data)*: 시간의 흐름에 따라 수집된 데이터로, 주식 시장 데이터, 시간에 따른 온도 데이터 등이 여기에 포함됩니다.

<br />

## 일반적인 데이터셋의 구조는 어떻게 되나요?

대부분의 데이터셋은 아래와 같이 세 부분으로 구성되어 있습니다.

- *특징 (Feature):* AI 모델에 입력해 학습의 대상이 되는 데이터를 뜻합니다. 챗봇 모델에서는 사용자의 '질문'이, 이미지 분류 모델에서는 '사진'이 특징이 될 수 있습니다.

- *라벨 (Label, 또는 레이블):* 데이터셋의 정답 또는 결과를 나타냅니다. 만약 사진에 고양이가 있다면, 그 사진의 라벨은 '고양이'가 됩니다.

- *메타데이터 (Metadata):* 데이터셋의 설명서 같은 것입니다. 데이터의 출처가 어디인지, 언제 만들어졌는지와 같은 추가 정보를 제공합니다.

<br/>

| 특징 (Features)                | 라벨 (Label)    | 메타데이터 (Metadata)                                    |
|-------------------------------|------------------|--------------------------------------------------------|
| 이미지 파일 경로: /images/cat.jpg | 고양이     | 파일 크기: 3MB, 촬영 날짜: 2021-01-15, 출처: User Upload |
| 텍스트: "How are you feeling today?" | 기분이 어때요?     | 길이: 24글자, 작성자: Admin, 생성 날짜: 2021-02-01         |
| 숫자 데이터: [2, 14, 15, 23]   | 시퀀스의 합: 54  | 데이터 유형: 정수 배열, 입력 날짜: 2021-03-22              |

<br />

## 자주 사용되는 데이터셋

- *MNIST 데이터셋*: 손글씨 숫자 이미지로 구성된 데이터셋으로, 컴퓨터 비전 분야에서 자주 사용됩니다.

- *Iris 데이터셋*: 붓꽃의 품종을 예측하기 위해 사용되는 표형 데이터셋입니다.

- *IMDB 리뷰 데이터셋*: 영화 리뷰 텍스트로 구성된 데이터셋으로, 감정 분석 등에 사용됩니다.

메타데이터는 데이터의 출처, 생성 날짜 등 부가적인 정보를 담고 있습니다. 데이터의 정답을 나타내는 것은 라벨입니다.

### 데이터셋의 메타데이터는 데이터의 정답 또는 결과를 나타냅니다.

특징 (Features)	라벨 (Label)	메타데이터 (Metadata)
이미지 파일 경로: /images/cat.jpg	고양이	파일 크기: 3MB, 촬영 날짜: 2021-01-15, 출처: User Upload
텍스트: "How are you feeling today?"	기분이 어때요?	길이: 24글자, 작성자: Admin, 생성 날짜: 2021-02-01
숫자 데이터: [2, 14, 15, 23]	시퀀스의 합: 54	데이터 유형: 정수 배열, 입력 날짜: 2021-03-22