학습 자료

AI로 데이터 증강하기

OpenAI 공식 문서에 따르면, JSONL 데이터에는 최소한 10개의 JSON 객체가 포함되어야 하며, 50-100개의 고품질 데이터만으로도 파인튜닝을 진행하면 좋은 결과를 얻을 수 있다고 합니다.

하지만 데이터셋을 수작업으로 만들기에는 시간과 비용이 많이 들기 때문에 데이터 증강 기술을 활용하여 데이터셋을 확장하고, 증강된 데이터를 수정하는 것이 더 효율적입니다.

데이터 증강(Augmentation)은 기존 데이터를 바탕으로 새로운 데이터를 생성하는 기술로, 데이터셋의 크기를 늘리고 AI 모델의 과적합(overfitting)을 방지하여 모델의 일반화 성능을 향상시킬 수 있습니다.

과거에는 데이터 증강을 구현하려면 복잡한 코드를 작성해 프로그램을 활용해야 했지만, 최근에는 텍스트 생성 AI에게 기존 데이터를 바탕으로 새로운 데이터를 생성하도록 지시하면 데이터 증강을 쉽게 수행할 수 있습니다.

코드프렌즈는 복잡한 데이터 증강을 클릭 1번에 쉽게 수행할 수 있는 기능을 제공합니다.


클릭 1번에 데이터 증강하기

아래 3단계를 통해 코드프렌즈 파인튜닝 실습 환경에서 10줄씩 JSON 데이터를 증강할 수 있습니다.


1. 데이터 선택

thumbnail-600


2. 새 파일 생성

thumbnail-600


3. 자동으로 10줄 추가

thumbnail-600


데이터를 증강할 때는, 이전까지 생성된 JSON 데이터를 기반으로 생성형 AI를 활용해 새로운 학습 데이터를 생성합니다.

Mission
0 / 1

다음 빈칸에 들어갈 단어로 가장 적합한 단어는 무엇일까요?

데이터 증강은 기존 데이터를 바탕으로 새로운 데이터를 생성하는 기술로, 데이터셋의 크기를 늘리고 AI 모델의 을 방지하여 모델의 일반화 성능을 향상시킬 수 있습니다.
과적합
과소적합
편향
분산

학습 자료

AI 튜터

배포

디자인

업로드

수업 노트

즐겨찾기

도움말