KB/llm-research/LLM 학습 기초: Masked Language Model

LLM 학습 기초: Masked Language Model

2026. 4. 18.·5 min read·llm-research

왜 필요한가요

BERT는 GPT처럼 다음 토큰을 예측하는 방식으로만 학습하지 않습니다.
대신 입력 문장 일부를 가리고, 양쪽 문맥을 사용해 가려진 토큰을 맞힙니다.

이 노트를 읽으면 아래 문장을 만났을 때 덜 막힙니다.

We pre-train BERT using a masked language model objective.

입력 토큰 시퀀스가 있다고 하겠습니다.

x = [x1, x2, x3, ..., xn]

그중 일부 위치 집합을 M이라고 하겠습니다.
MLM은 선택된 위치의 원래 토큰을 맞히도록 학습합니다.

L_MLM = - sum_{i in M} log P(x_i | x_with_masks)

BERT 논문에서는 전체 WordPiece 토큰 중 15%를 예측 대상으로 고릅니다.
선택된 토큰은 다음 방식으로 바뀝니다.

80%: [MASK]로 바꿈
10%: 임의의 다른 토큰으로 바꿈
10%: 그대로 둠

MLM은 빈칸 맞히기입니다.

모델은 가려진 위치의 정답 토큰에 높은 확률을 줘야 합니다.
정답 토큰에 낮은 확률을 주면 cross-entropy loss가 커집니다.

핵심은 모델이 왼쪽 문맥과 오른쪽 문맥을 모두 사용할 수 있다는 점입니다.

나는 아침에 [MASK]를 마셨습니다.

이 경우 모델은 왼쪽의 나는 아침에와 오른쪽의 를 마셨습니다를 함께 보고 커피 같은 답을 예측할 수 있습니다.

초등학교 국어 문제를 떠올리면 됩니다.

철수는 비가 와서 ___ 을 펼쳤습니다.

정답은 우산일 가능성이 높습니다.

왼쪽만 보면 비가 와서까지 읽고 추측해야 합니다.
오른쪽의 을 펼쳤습니다까지 보면 훨씬 확실해집니다.

BERT는 이런 방식으로 양쪽 문맥을 모두 쓰는 표현을 학습합니다.

BERT 논문에서 MLM을 보면 이렇게 읽으면 됩니다.

다음 단어 생성 모델이 아니라, 일부 단어를 가리고 양쪽 문맥으로 복원하는 학습 목표입니다.

이 목표 덕분에 BERT는 각 토큰 표현을 만들 때 왼쪽과 오른쪽 문맥을 동시에 반영할 수 있습니다.

하지만 단점도 있습니다.

[MASK] 토큰은 fine-tuning이나 실제 사용 시 보통 등장하지 않습니다.

그래서 BERT는 80/10/10 규칙으로 이 불일치를 줄이려 했습니다.

● KBllm-research·2026-04-18-llm-learning-basics-masked-language-model5 min read