학습 자료

다른 AI 모델은 어떤 데이터 포맷을 사용할까?

지금까지 OpenAI 플랫폼 파인튜닝을 위한 데이터셋 형식을 살펴보았습니다.

그렇다면 다른 AI 모델들은 어떤 데이터 포맷을 사용할까요?

텍스트 처리 AI 모델도 다른 형식의 JSONL 데이터셋을 사용할 수 있으며, 이미지 처리 AI 모델과 같이 다른 유형의 입력을 받는 AI 모델도 고유의 데이터 포맷을 사용할 수 있습니다.


텍스트 처리 AI 모델

아래와 같이 사용자의 입력을 의미하는 prompt와 AI 모델이 생성한 출력을 의미하는 completion으로 구성된 JSONL 데이터셋을 사용할 수 있습니다.

jsonl 데이터 포맷
{"prompt": "프랑스의 수도가 어디인가요?", "completion": "프랑스의 수도는 파리입니다."} {"prompt": "미국에서 가장 작은 주는 어디인가요?", "completion": "미국에서 가장 작은 주는 로드 아일랜드입니다."}

이미지 처리 AI 모델

이미지 처리 모델을 학습시키거나 파인튜닝 할 경우, 주로 이미지 파일의 경로와 해당 이미지의 라벨(Label, 또는 레이블)을 포함한 CSV(Comma-Separated Values) 파일을 사용할 수 있습니다.

CSV 데이터 포맷
imagePath,label "/path/to/image1.jpg","cat" "/path/to/image2.jpg","dog"

AI 모델에 따라 이미지 경로와 라벨을 JSON, XML 등 다른 형식의 파일을 사용할 수도 있습니다. 예를 들어 다른 이미지 처리 AI 모델은 아래와 같이 JSON 형식의 데이터셋을 사용할 수 있습니다.

JSON 데이터 포맷
{ "images": [ {"path": "/path/to/image1.jpg", "label": "cat"}, {"path": "/path/to/image2.jpg", "label": "dog"} ] }

이처럼 AI 모델에 따라 다양한 데이터 포맷을 사용할 수 있으며, 데이터셋을 구성할 때 AI 모델의 요구사항에 맞춰 데이터를 구성해야 합니다.

Mission
0 / 1

AI 모델에 따라 JSON, XML 등 다양한 데이터 포맷을 사용할 수 있습니다.

학습 자료

AI 튜터

배포

디자인

업로드

수업 노트

즐겨찾기

도움말