크로스 어텐션 (Cross-Attention) | AI 용어 | NJOY-AI

크로스 어텐션이란?

크로스 어텐션(Cross-Attention)은 서로 다른 두 시퀀스 사이의 관계를 학습하는 어텐션 메커니즘입니다. 일반적인 셀프 어텐션이 하나의 시퀀스 내에서 각 요소들 간의 관계를 파악한다면, 크로스 어텐션은 텍스트와 이미지, 질문과 답변처럼 서로 다른 종류의 데이터 간 연관성을 찾아내는 역할을 합니다.

예를 들어, "고양이가 소파에 앉아있는 사진"이라는 텍스트와 실제 이미지가 주어졌을 때, 크로스 어텐션은 텍스트의 "고양이"라는 단어가 이미지의 어느 부분과 가장 관련이 깊은지 파악할 수 있습니다.

작동 원리와 구조

크로스 어텐션은 Query, Key, Value라는 세 가지 요소를 사용합니다. 핵심은 Query가 한 시퀀스에서, Key와 Value가 다른 시퀀스에서 온다는 점입니다. 이를 통해 첫 번째 시퀀스의 각 요소가 두 번째 시퀀스의 어떤 부분에 주목해야 하는지 학습합니다.

기계번역에서 크로스 어텐션은 디코더가 인코더의 출력을 참조할 때 사용됩니다. "I love cats"를 "나는 고양이를 좋아한다"로 번역할 때, "고양이를"이라는 단어를 생성하는 시점에서 원문의 "cats"에 높은 어텐션 가중치를 부여하는 식으로 작동합니다.

실제 활용 사례

크로스 어텐션은 현대 AI의 다양한 분야에서 핵심적인 역할을 하고 있습니다. CLIP과 같은 비전-언어 모델에서는 이미지와 텍스트를 연결하는 브릿지 역할을 하며, GPT-4V 같은 멀티모달 모델에서도 텍스트 질문과 이미지 콘텐츠를 연결하는 데 사용됩니다.

음성 인식 분야에서는 오디오 신호와 텍스트 간의 정렬을 학습하는 데 활용되고, 최근에는 비디오 생성 AI에서 텍스트 프롬프트와 시각적 요소를 연결하는 중요한 구성 요소로 자리잡고 있습니다. 이처럼 크로스 어텐션은 서로 다른 모달리티를 이해하는 AI의 필수 기술로 발전하고 있습니다.