AI로 데이터 증강하기
OpenAI 공식 문서에 따르면, JSONL 데이터에는 최소한 10개의 JSON 객체
가 포함되어야 하며, 50-100개의 고품질 데이터만으로도 파인튜닝을 진행하면 좋은 결과를 얻을 수 있다고 합니다.
하지만 데이터셋을 수작업으로 만들기에는 시간과 비용이 많이 들기 때문에 데이터 증강 기술
을 활용하여 데이터셋을 확장하고, 증강된 데이터를 수정하는 것이 더 효율적입니다.
데이터 증강(Augmentation)은 기존 데이터를 바탕으로 새로운 데이터를 생성하는 기술로, 데이터셋의 크기를 늘리고 AI 모델의 과적합
(overfitting)을 방지하여 모델의 일반화 성능을 향상시킬 수 있습니다.
과거에는 데이터 증강을 구현하려면 복잡한 코드를 작성해 프로그램을 활용해야 했지만, 최근에는 텍스트 생성 AI에게 기존 데이터를 바탕으로 새로운 데이터를 생성하도록 지시하면 데이터 증강을 쉽게 수행할 수 있습니다.
코드프렌즈는 복잡한 데이터 증강을 클릭 1번에 쉽게 수행할 수 있는 기능을 제공합니다.
클릭 1번에 데이터 증강하기
아래 3단계를 통해 코드프렌즈 파인튜닝 실습 환경에서 10줄씩 JSON 데이터를 증강할 수 있습니다.
1. 데이터 선택
2. 새 파일 생성
3. 자동으로 10줄 추가
데이터를 증강할 때는, 이전까지 생성된 JSON 데이터를 기반으로 생성형 AI를 활용해 새로운 학습 데이터를 생성합니다.
Mission
0 / 1
다음 빈칸에 들어갈 단어로 가장 적합한 단어는 무엇일까요?
데이터 증강은 기존 데이터를 바탕으로 새로운 데이터를 생성하는 기술로, 데이터셋의 크기를 늘리고 AI 모델의 을 방지하여 모델의 일반화 성능을 향상시킬 수 있습니다.
과적합
과소적합
편향
분산
가이드라인
AI 튜터
배포
디자인
업로드
수업 노트
즐겨찾기
도움말