다양한 관점으로 문장을 이해하는 멀티헤드 어텐션
멀티헤드 어텐션(Multi-Head Attention)
은 Self-Attention을 여러 번 동시에 수행해, 문장의 다양한 관계를 더 잘 이해할 수 있도록 한 구조입니다.
Self-Attention 하나만으로도 단어들 사이의 중요한 관계를 파악할 수 있지만, 하나의 관점만으로는 복잡한 문맥을 충분히 표현하기 어렵습니다.
따라서 여러 개의 Self-Attention을 병렬로 실행해 서로 다른 시각에서 문장을 바라보는 방식이 도입되었습니다.
멀티헤드 어텐션 예시
예를 들어 "학생이 책상에 앉아 책을 읽고 있다"라는 문장을 보겠습니다.
멀티헤드 어텐션은 이 문장을 다음과 같이 여러 관점에서 이해합니다.
-
어텐션 1:
학생
과앉아
의 관계를 중점적으로 파악 -
어텐션 2:
책
과읽고 있다
의 관계를 중점적으로 파악
이렇게 멀티헤드 어텐션은 여러 관점을 동시에 적용해, 문장의 의미를 더 풍부하게 이해합니다.
멀티헤드 어텐션은 어떻게 동작하나요?
-
입력 문장은 여러 개의 셀프 어텐션 구조에 복사되어 전달됩니다.
-
각 구조는 독립적으로 다른 가중치를 사용해 단어들 사이의 관계를 계산합니다.
-
모든 구조의 출력 결과를 하나로 모읍니다.
-
최종적으로 이 정보를 종합해 문장의 의미를 표현합니다.
이 과정을 통해 모델은 다양한 정보와 관계를 동시에 고려하며 더 정확한 표현을 만들어낼 수 있습니다.
멀티헤드 어텐션은 트랜스포머 모델이 문장을 더 정교하게 이해할 수 있도록 돕는 핵심 구성 요소입니다.
다음 수업에서는 지금까지 배운 내용을 토대로 간단한 퀴즈를 풀어보겠습니다.
다음 중 멀티헤드 어텐션의 주요 기능은 무엇인가요?
Lecture
AI Tutor
Design
Upload
Notes
Favorites
Help
