학습 자료

AI를 활용한 음성 합성

자동응답기, 스마트 스피커, 내비게이션 등에서 들리는 음성은 어떻게 만들어질까요?

AI는 이제 사람의 목소리까지 만들어낼 수 있습니다. 단순한 기계음이 아니라 감정, 억양, 심지어 특정 인물의 목소리를 흉내 내는 것도 가능합니다.

음성 합성(Speech Synthesis)은 컴퓨터가 사람의 목소리를 흉내 내어 음성을 생성하는 기술입니다.

AI는 수많은 음성 데이터를 기반으로 소리와 문장 패턴을 학습하고, 이를 바탕으로 새로운 음성을 생성합니다.

음성 합성 기술은 일반적으로 텍스트를 입력받아 해당 내용을 사람의 음성으로 변환하며, 이러한 기술을 텍스트-투-스피치(Text-to-Speech, TTS)라고 합니다.

이번 수업에서는 음성 합성의 개념과, AI가 음성을 생성하는 기술적 과정을 살펴보겠습니다.


--

컴퓨터는 글자를 바로 읽을 수 없습니다. 먼저, 문장을 작은 단위로 나누어 분석하는 텍스트 전처리 과정을 거쳐야 합니다.


1. 토큰화

토큰은 문장을 작은 단위로 나눈 것을 의미합니다.

예를 들어 "Hello, how are you?"를 토큰화하면 ["Hello", ",", "how", "are", "you", "?"]와 같이 나눌 수 있습니다.


2. 발음 변환

글자를 실제 발음할 수 있는 단위인 음소(phoneme)로 바꿉니다. 이때 사용되는 대표적인 표기법은 ARPAbet이나 국제 음성 기호(IPA)입니다.

예를 들어 "Hello"는 기계가 이해하기 쉬운 ARPAbet 규격을 따라 HH AH0 L OW1와 같이 변환됩니다.


3. 문맥 분석

문장에서 강조할 부분이나 문장의 흐름을 분석합니다.

"나는 학교에 간다."는 평서문 억양이고, "나는 학교에 간다?"는 의문문 억양입니다.

AI는 이런 억양 차이를 학습해 문장의 분위기에 맞는 말투로 음성을 생성합니다.


4. 보코더 변환을 통한 음성 생성

AI가 만든 소리 정보는 아직 사람이 들을 수 있는 소리가 아닙니다. 이를 실제 목소리처럼 바꿔주는 게 바로 보코더(Vocoder)입니다.

보코더는 사람이 내는 소리의 주파수와 진폭 정보를 바탕으로 소리를 생성합니다.

최근에는 WaveNet, HiFi-GAN과 같은 딥러닝 기반의 보코더가 널리 사용되고 있으며, 사람 목소리와 거의 구별되지 않을 정도로 자연스러운 소리를 만들어냅니다.


AI 기반 음성 합성 기술은 점점 더 자연스러운 발음과 억양을 생성하는 방향으로 발전하고 있습니다.

다음 수업에서는 지금까지 배운 내용을 복습하고, 퀴즈를 통해 핵심 개념을 점검해 보겠습니다.

Mission
0 / 1

TTS는 Text-Tone-Signal의 약자이다.

학습 자료

AI 튜터

디자인

업로드

수업 노트

즐겨찾기

도움말

TTS Prompt 1

안녕하세요 반갑습니다.

TTS Prompt 2

코드프렌즈입니다.