딥러닝

트랜스포머(Transformer)

타우루스 2026. 2. 19. 18:18

트랜스포머(Transformer)는 2017년 구글이 발표한 논문 "Attention is All You Need"에서 제안된 모델로, 현대 생성형 AI(ChatGPT, BERT 등)의 근간이 되는 혁신적인 아키텍처입니다. 기존의 순환 신경망(RNN)이나 합성곱 신경망(CNN)을 사용하지 않고 오직 Attention 메커니즘만으로 데이터를 처리하는 것이 특징입니다.


1. 트랜스포머의 핵심 원리: 셀프 어텐션 (Self-Attention)

트랜스포머의 가장 중요한 핵심은 문장 내의 단어들이 서로 어떤 관계를 가지는지 스스로 파악하는 셀프 어텐션입니다.

  • 병렬 처리: RNN은 단어를 순차적으로 처리해야 하므로 속도가 느리지만, 트랜스포머는 문장 전체를 한꺼번에 입력받아 병렬로 처리합니다.
  • 맥락 파악: "동생이 사과를 먹었다. 그것은 맛있다"라는 문장에서 '그것'이 '사과'를 지칭한다는 것을 수치적으로 계산하여 연결합니다.
  • Query, Key, Value: 각 단어는 세 가지 벡터로 변환되어 계산됩니다.
    • Query(Q): 영향을 줄 대상을 찾는 주체
    • Key(K): Query와 대조되는 대상
    • Value(V): 계산된 가중치가 적용될 실제 정보

2. 트랜스포머의 구조 (Architecture Overview)

트랜스포머는 입력 시퀀스를 처리하여 중간 표현을 생성하는 인코더와, 이 표현을 바탕으로 출력 시퀀스를 생성하는 디코더가 결합된 구조입니다. 두 부분 모두 동일한 레이어를 여러 개(N번) 쌓아 올린 형태를 취합니다.


3. 인코더 (Encoder): 입력 데이터의 이해와 특징 추출

인코더는 입력된 문장(또는 데이터)의 맥락을 파악하여 고차원 벡터로 압축하는 역할을 합니다.

(1) 셀프 어텐션 (Multi-Head Self-Attention)

  • 원리: 문장 내의 각 단어가 서로 어떤 연관이 있는지 계산합니다. "사과가 나무에서 떨어졌다. 그것은 빨갛다"에서 '그것'이 '사과'임을 수치적으로 연결합니다.
  • 멀티 헤드: 어텐션을 여러 개 병렬로 수행하여, 문법적 관계나 의미적 관계 등 다양한 관점에서 정보를 포착합니다.

(2) 피드 포워드 신경망 (Feed-Forward Neural Network)

  • 어텐션 결과로 얻은 정보를 각 단어 위치별로 독립적으로 비선형 변환하여 특징을 더욱 구체화합니다.

(3) 잔차 연결 및 층 정규화 (Residual Connection & Layer Norm)

  • 잔차 연결: 입력 정보를 출력에 더해주어 정보 손실을 방지하고 학습의 기울기 소실(Gradient Vanishing) 문제를 해결합니다.
  • 층 정규화: 학습 속도를 높이고 수렴을 안정화합니다.

4. 디코더 (Decoder): 결과물의 생성

디코더는 인코더가 넘겨준 정보와 현재까지 생성된 단어들을 바탕으로 다음에 올 가장 적절한 단어를 예측합니다.

(1) 마스크드 셀프 어텐션 (Masked Self-Attention)

  • 특징: 생성 시점 기준으로 '미래의 단어'를 미리 보지 못하도록 가리는(Masking) 기법을 사용합니다. 이는 추론 시점의 환경과 학습 환경을 맞추기 위함입니다.

(2) 인코더-디코더 어텐션 (Encoder-Decoder Attention)

  • 디코더가 단어를 생성할 때, 인코더의 어떤 정보에 집중해야 할지 결정합니다. 번역 모델이라면 출력 단어가 입력 문장의 어떤 단어와 대응되는지 찾는 과정입니다.

5. 공통 핵심 구성요소

구성요소 설명 비고
Positional Encoding 단어의 위치 정보를 벡터에 더해줌 순차적이지 않은 병렬 처리의 한계 극복
Linear & Softmax 디코더의 마지막 출력값을 확률 분포로 변환 가장 높은 확률의 단어를 최종 선택
Embedding 단어를 수치화된 고차원 벡터로 변환 입력 및 출력 단어의 초기 처리


6. 트랜스포머가 바꾼 인공지능의 지형

트랜스포머의 등장 이후 자연어 처리(NLP)뿐만 아니라 컴퓨터 비전(ViT), 오디오 처리 등 모든 AI 분야가 트랜스포머 기반으로 통합되고 있습니다.

  • 확장성(Scalability): 모델의 크기와 데이터양을 늘릴수록 성능이 비약적으로 향상됩니다. (LLM의 탄생 배경)
  • 장거리 의존성 해결: 문장이 아주 길어져도 초기 단어의 정보를 잃지 않고 참조할 수 있습니다.