문장을 한 번에 처리하는 트랜스포머 구조
RNN과 LSTM은 단어를 순서대로 하나씩 처리하기 때문에, 문장이 길어질수록 속도가 느려지고 앞의 정보가 뒤로 잘 전달되지 않는 문제가 있었습니다.
트랜스포머(Transformer)
는 이러한 문제를 해결하기 위해 만들어진 모델로, 문장을 순서대로 처리하지 않고 모든 단어를 한 번에 처리해 학습 속도가 빠릅니다.
또한 어텐션(Attention)
메커니즘을 사용해 문장 전체의 맥락을 파악하고, 중요한 정보에 집중할 수 있습니다.
트랜스포머 모델은 생성형 AI 열풍을 일으킨 GPT 모델의 기반이 되는 구조로, GPT의 T
가 Transformer
를 의미합니다.
이런 장점 덕분에 트랜스포머 모델은 번역, 문서 요약, 질의응답, 글쓰기 등 다양한 자연어 처리(NLP) 작업에서 우수한 성능을 보여주고 있습니다.
중요한 정보에 집중하는 어텐션 메커니즘
어텐션 메커니즘은 문장 안에서 어떤 단어가 더 중요한지 판단하고, 그 단어에 더 집중할 수 있도록 돕는 기술입니다.
예를 들어 "어제 먹은 라면 때문에 배탈이 났다"
라는 문장에서 "배탈이 났다"
의 원인을 이해하려면 "라면"
이라는 단어에 주목해야 합니다.
어텐션은 이처럼 문장의 전체 내용을 살펴본 뒤, 현재 단어와 관련 있는 정보를 찾아내고 그 영향을 더 크게 반영해 학습을 진행합니다.
이를 통해 트랜스포머는 문장 전체의 맥락을 파악하고, 중요한 정보에 집중해 더 정확한 예측을 수행할 수 있습니다.
2017년 구글의 Attention is All You Need 논문에서 처음 공개된 트랜스포머 모델은 다양한 자연어 처리 작업에서 뛰어난 성능을 보여주며 생성형 AI 분야를 이끌고 있습니다.
다음 수업에서는 간단한 RNN 모델을 직접 만들어 보는 실습을 진행해 보겠습니다.
트랜스포머 모델은 문장 내 모든 단어를 순서대로 처리한다.
Lecture
AI Tutor
Design
Upload
Notes
Favorites
Help