LLM 수학 기초 2: softmax와 확률 해석
·2 min read·llm-research
왜 필요한가요
논문에서 계산한 점수를 바로 쓰지 않고 softmax를 거치는 이유를 이해하면,
Attention과 출력 확률 해석이 훨씬 쉬워집니다.
softmax의 역할
softmax는 여러 점수를 0~1 사이 값으로 바꾸고, 전체 합이 1이 되게 만듭니다.
- 큰 점수는 더 크게 강조됩니다.
- 작은 점수는 더 작아집니다.
- 최종적으로 "확률처럼" 해석할 수 있습니다.
Attention에서의 softmax
Attention은 먼저 QK 점수를 만들고, 여기에 softmax를 적용합니다.
그 결과를 가중치로 써서 Value를 가중합합니다.
즉, softmax는 "어떤 토큰을 얼마나 참고할지"를 정하는 단계입니다.
자주 하는 오해
- softmax 출력은 항상 정답 확률이라고 볼 수 없습니다.
- 다만 상대적인 신뢰도 분포로 해석하는 데 유용합니다.
최소 체크포인트
- softmax는 점수를 분포로 바꾸는 함수입니다.
- 합이 1인 값이므로 가중치로 쓰기 좋습니다.
- Attention에서는 토큰 중요도 분배기로 동작합니다.