Logo
Published on

Transformer 기초: Q, K, V 직관

Authors

왜 필요한가요

Attention 논문을 읽다가 가장 먼저 막히는 지점이 Q, K, V입니다.
역할을 분리해서 이해하면 수식이 훨씬 단순해집니다.

한 문장 정의

  • Query(Q): 지금 내가 찾고 싶은 정보입니다.
  • Key(K): 내가 가진 정보의 "찾기용 라벨"입니다.
  • Value(V): 실제로 가져갈 정보 본문입니다.

도서관 비유

  • Q: 찾고 싶은 책 주제
  • K: 책의 색인 카드
  • V: 책 본문

Q와 K를 비교해 관련도를 구하고, 그 점수로 V를 섞어 최종 문맥을 만듭니다.

계산 흐름

  1. Q와 K를 비교해 점수를 계산합니다.
  2. softmax로 점수를 가중치로 바꿉니다.
  3. 그 가중치로 V를 가중합해 출력 벡터를 만듭니다.

최소 체크포인트

  • Q와 K는 "매칭" 용도입니다.
  • V는 "내용" 용도입니다.
  • Attention 출력은 여러 V를 섞은 문맥 벡터입니다.