딥러닝 혁명2017

트랜스포머: 현대 AI의 설계도

2017년 구글 연구팀의 논문 'Attention is All You Need'가 트랜스포머 아키텍처를 발표하며, 오늘날 GPT·BERT·Claude 등 모든 대형 언어 모델의 기술적 기반을 만들었습니다.

"Attention is All You Need"

2017년 6월, 구글 브레인과 구글 리서치 소속 8명의 연구자가 NeurIPS 학회에 논문 하나를 제출했습니다. 제목은 단호했습니다: "Attention is All You Need".

당시 자연어 처리(NLP)의 주류는 RNN(순환 신경망)과 LSTM이었습니다. 이 모델들은 텍스트를 순서대로 처리해야 했기 때문에 병렬화가 어렵고, 긴 문장에서 앞부분 정보를 잊는 문제가 있었습니다.

트랜스포머는 이 두 한계를 한 번에 해결했습니다.

셀프 어텐션: 핵심 메커니즘

트랜스포머의 핵심은 **셀프 어텐션(Self-Attention)**입니다. 단어를 순서대로 처리하는 대신, 문장 속 모든 단어가 다른 모든 단어와 동시에 '대화'합니다.

예를 들어 "그 은행은 강변에 있다"에서 '은행'이 금융기관인지 강변 지형인지 판단할 때, 셀프 어텐션은 '강변'과의 관계에 높은 가중치를 줍니다. 문맥 전체를 한 번에 파악하는 것입니다.

멀티헤드 어텐션: 하나의 어텐션이 아닌 여러 어텐션을 병렬로 운용해 다양한 관계(문법적, 의미적, 지시적)를 동시에 포착합니다.

포지셔널 인코딩: 순서 정보가 없는 어텐션에 위치 정보를 별도로 주입합니다.

왜 모든 것을 바꿨나

트랜스포머의 두 번째 혁신은 병렬화 가능성입니다. RNN은 토큰을 순서대로 처리해야 했지만, 트랜스포머는 전체를 동시에 처리합니다. GPU/TPU의 병렬 연산 능력을 최대한 활용할 수 있게 된 것입니다.

이것은 단순한 속도 향상이 아니었습니다. 훨씬 더 큰 모델을 훨씬 더 많은 데이터로 학습할 수 있게 됐습니다.

트랜스포머의 후손들

2017년 이후 등장한 거의 모든 주요 AI 모델은 트랜스포머 아키텍처를 기반으로 합니다.

연도모델특징
2018BERT (구글)트랜스포머 인코더 양방향 학습
2018GPT-1 (OpenAI)트랜스포머 디코더 언어 모델
2020GPT-31750억 파라미터, few-shot 학습
2022ChatGPTRLHF로 대화 특화
2023GPT-4, Claude멀티모달·고성능

원래 논문 저자 8명 중 6명이 구글을 떠나 AI 스타트업을 창업했습니다. 역설적으로, 구글이 발표한 트랜스포머가 구글의 검색 패권에 도전하는 경쟁자들의 토대가 됐습니다.