Logo
KB/llm-research/LLM 수학 기초 2: softmax와 확률 해석

LLM 수학 기초 2: softmax와 확률 해석

·2 min read·llm-research

왜 필요한가요

논문에서 계산한 점수를 바로 쓰지 않고 softmax를 거치는 이유를 이해하면,
Attention과 출력 확률 해석이 훨씬 쉬워집니다.

softmax의 역할

softmax는 여러 점수를 0~1 사이 값으로 바꾸고, 전체 합이 1이 되게 만듭니다.

  • 큰 점수는 더 크게 강조됩니다.
  • 작은 점수는 더 작아집니다.
  • 최종적으로 "확률처럼" 해석할 수 있습니다.

Attention에서의 softmax

Attention은 먼저 QK 점수를 만들고, 여기에 softmax를 적용합니다.
그 결과를 가중치로 써서 Value를 가중합합니다.

즉, softmax는 "어떤 토큰을 얼마나 참고할지"를 정하는 단계입니다.

자주 하는 오해

  • softmax 출력은 항상 정답 확률이라고 볼 수 없습니다.
  • 다만 상대적인 신뢰도 분포로 해석하는 데 유용합니다.

최소 체크포인트

  • softmax는 점수를 분포로 바꾸는 함수입니다.
  • 합이 1인 값이므로 가중치로 쓰기 좋습니다.
  • Attention에서는 토큰 중요도 분배기로 동작합니다.
● KBllm-research·2026-04-17-llm-math-basics-softmax2 min read