BERT (2018) 논문 노트
BERT 논문의 핵심 아이디어인 양방향 Transformer encoder, masked language model, next sentence prediction, fine-tuning 패러다임을 정리한 논문 노트.
Read MoreBERT 논문의 핵심 아이디어인 양방향 Transformer encoder, masked language model, next sentence prediction, fine-tuning 패러다임을 정리한 논문 노트.
Read MoreBERT와 GPT 계열을 구분하는 encoder-only, decoder-only 구조를 비교합니다.
Read MoreTransformer encoder와 decoder가 각각 어떤 역할을 하는지 원래 구조와 쉬운 예시로 설명합니다.
Read MoreTransformer 논문의 핵심 아이디어, 왜 중요했는지, 다음에 읽을 논문까지 연결하는 시작 노트.
Read More모델이 얼마나 틀렸는지 측정하는 cross-entropy와 perplexity를 수식, 해설, 예시로 설명합니다.
Read MoreTransformer 블록에서 Residual, LayerNorm, FFN이 왜 필요한지 수식, 해설, 예시로 설명합니다.
Read More