AI를 학습시킬 때 사용하는 데이터 형식
AI 모델을 학습시키기 위해서는 데이터를 AI가 이해할 수 있는 형식으로 변환해야 합니다.
이번 수업에서는 AI를 학습시키는 데 사용되는 주요 데이터 파일 형식인 CSV
, JSON
, XML
에 대해 알아보겠습니다.
CSV
CSV
는 Comma-Separated Values의 약자로, 표(Table) 형식의 데이터를 저장 및 전송합니다.
각 행(가로줄)은 하나의 데이터를 표현하며 나타내며, 각 열은 데이터의 특정 속성을 나타냅니다.
각 열의 값은 쉼표(,)로 구분됩니다.
예를 들어 학생들의 이름별 수학 및 영어 성적을 저장하는 CSV 파일은 다음과 같이 표현될 수 있습니다.
이름,수학,영어 김철수,85,90 최영희,88,80
CSV는 .csv
파일 확장자를 가진 텍스트 파일로 저장되며, Microsoft Excel, Google Sheets, 데이터베이스 프로그램 등 다양한 데이터 관리 프로그램에서 쉽게 열고 편집할 수 있습니다.
JSON
JSON(JavaScript Object Notation)은 주로 웹 및 모바일 애플리케이션에서 데이터 저장 및 교환을 위해 사용됩니다.
JSON은 객체(Object)와 배열(Array)로 구성되며, 객체는 중괄호 { }
로, 배열은 대괄호 [ ]
로 감싸져 있습니다.
// 대괄호로 감싼 배열 [ // 중괄호로 감싼 객체 { "이름": "김철수", "수학": 85, "영어": 90 }, { "이름": "최영희", "수학": 88, "영어": 80 } ]
JSON 형식의 데이터 여러개를 1줄에 하나씩 나열해서 저장하는 데이터 파일 형식을 JSONL(JSON Lines)이라고 합니다.
{"이름": "김철수", "수학": 85, "영어": 90} {"이름": "최영희", "수학": 88, "영어": 80}
OpenAI의 AI 모델이나 범용적인 머신러닝 모델을 학습시킬 때, JSONL 형식의 데이터 파일을 사용하는 경우가 많습니다.
XML
XML(eXtensible Markup Language)은 주로 데이터의 계층 구조를 표현하는 데 사용됩니다.
XML의 주요 요소는 다음과 같습니다:
-
태그:
< >
로 감싸진 데이터로, 데이터의 계층 구조를 표현합니다.- 태그는 시작 태그와 종료 태그로 나뉩니다.
- 시작 태그는
<태그명>
, 종료 태그는</태그명>
으로 표시됩니다.
-
속성: 태그 내에 추가 정보를 제공하기 위해 사용됩니다.
- 태그에 속성을 추가하려면
<태그명 속성명="속성값">
형식을 사용합니다. - 예:
<학생 성별="남">
은 학생 태그에 성별 속성을 추가한 예입니다.
- 태그에 속성을 추가하려면
아래는 JSON 예시를 XML로 표현한 것입니다.
<학생명단> <학생> <이름>김철수</이름> <수학>85</수학> <영어>90</영어> </학생> <학생> <이름>최영희</이름> <수학>88</수학> <영어>80</영어> </학생> </학생명단>
이미지 관련 AI 모델을 학습시킬 때는 .jpg
, .png
등의 이미지 파일 형식을 사용합니다.
이미지 파일은 픽셀 값으로 구성되며, AI 모델은 이 픽셀 값을 입력으로 받아 이미지를 인식하고 분류합니다.
이렇게 AI 모델을 학습시키기 위한 데이터 파일 형식은 다양하며, 모델 설계 방식에 따라 적절한 데이터 형식을 선택하여 사용해야 합니다.
AI를 학습시킬 때 자주 사용되는 데이터 파일 형식이 아닌 것은 무엇일까요?
CSV
JSON
HTML
XML
Lecture
AI Tutor
Design
Upload
Notes
Favorites
Help