Logo
KB/llm-research/LLM 학습 기초: Masked Language Model

LLM 학습 기초: Masked Language Model

·5 min read·llm-research

왜 필요한가요

BERT는 GPT처럼 다음 토큰을 예측하는 방식으로만 학습하지 않습니다.
대신 입력 문장 일부를 가리고, 양쪽 문맥을 사용해 가려진 토큰을 맞힙니다.

이 노트를 읽으면 아래 문장을 만났을 때 덜 막힙니다.

We pre-train BERT using a masked language model objective.

원본 개념과 수식

입력 토큰 시퀀스가 있다고 하겠습니다.

x = [x1, x2, x3, ..., xn]

그중 일부 위치 집합을 M이라고 하겠습니다.
MLM은 선택된 위치의 원래 토큰을 맞히도록 학습합니다.

L_MLM = - sum_{i in M} log P(x_i | x_with_masks)

BERT 논문에서는 전체 WordPiece 토큰 중 15%를 예측 대상으로 고릅니다.
선택된 토큰은 다음 방식으로 바뀝니다.

80%: [MASK]로 바꿈
10%: 임의의 다른 토큰으로 바꿈
10%: 그대로 둠

1차 해설: 수식이 말하는 것

MLM은 빈칸 맞히기입니다.

모델은 가려진 위치의 정답 토큰에 높은 확률을 줘야 합니다.
정답 토큰에 낮은 확률을 주면 cross-entropy loss가 커집니다.

핵심은 모델이 왼쪽 문맥과 오른쪽 문맥을 모두 사용할 수 있다는 점입니다.

나는 아침에 [MASK]를 마셨습니다.

이 경우 모델은 왼쪽의 나는 아침에와 오른쪽의 를 마셨습니다를 함께 보고 커피 같은 답을 예측할 수 있습니다.

쉬운 예시

초등학교 국어 문제를 떠올리면 됩니다.

철수는 비가 와서 ___ 을 펼쳤습니다.

정답은 우산일 가능성이 높습니다.

왼쪽만 보면 비가 와서까지 읽고 추측해야 합니다.
오른쪽의 을 펼쳤습니다까지 보면 훨씬 확실해집니다.

BERT는 이런 방식으로 양쪽 문맥을 모두 쓰는 표현을 학습합니다.

논문에서 다시 만났을 때 읽는 법

BERT 논문에서 MLM을 보면 이렇게 읽으면 됩니다.

다음 단어 생성 모델이 아니라, 일부 단어를 가리고 양쪽 문맥으로 복원하는 학습 목표입니다.

이 목표 덕분에 BERT는 각 토큰 표현을 만들 때 왼쪽과 오른쪽 문맥을 동시에 반영할 수 있습니다.

하지만 단점도 있습니다.

[MASK] 토큰은 fine-tuning이나 실제 사용 시 보통 등장하지 않습니다.

그래서 BERT는 80/10/10 규칙으로 이 불일치를 줄이려 했습니다.

자주 하는 오해

  • MLM은 문장 전체를 복원하는 autoencoder와 같지 않습니다. 선택된 일부 토큰만 예측합니다.
  • [MASK] 위치만 중요한 것이 아닙니다. 어떤 토큰이 예측 대상인지 모르도록 만들어 모든 토큰 표현을 문맥적으로 유지하게 합니다.
  • MLM은 생성형 챗봇 학습 목표와 다릅니다. BERT는 기본적으로 다음 토큰을 길게 생성하는 구조가 아닙니다.

최소 체크포인트

  • MLM은 일부 토큰을 가리고 원래 토큰을 맞히는 학습입니다.
  • BERT는 이 목표로 양방향 문맥 표현을 배웁니다.
  • 15% 선택, 80/10/10 치환 규칙은 [MASK] 불일치를 줄이기 위한 장치입니다.
● KBllm-research·2026-04-18-llm-learning-basics-masked-language-model5 min read