RealFormer: Transformer Likes Residual Attention
Ruining He, Anirudh Ravula, Bhargav Kanagal, Joshua Ainslie
RealFormer: Transformer Likes Residual Attention
Transformer is the backbone of modern NLP models. In this paper, we propose RealFormer, a simple Residual Attention Layer Transformer architecture that significantly outperforms canonical Transformers on a spectrum of tasks including Masked Language Modeli
arxiv.org
트랜스포머 아키텍처는 BERT, GPT와 같은 수많은 최첨단 자연어처리(NLP, Natural Language Processing) 모델의 중추이며 학계와 산업계 모두에서 광범위한 성공을 거두었습니다.
Post-LN
일반적으로 트랜스포머 네트워크는 잔여 계층(Residual Layers) 스택으로 구성됩니다.
원래의 디자인은 그림과 같이 각 하위 계층에 대한 "후처리(Post-processing)" 단계로 LN(Layer Norm)을 추가하는 "Post-LN" 구조를 따릅니다.
이 방식은 BERT, XLNet, RoBERTa, ALBERT 등에 채택되어 왔습니다.
Pre-LN
또 다른 설계는 레이어 안의 서브 레이어의 순서를 재구성하여 "Direct" / "Clean" 경로를 만들어 전체 네트워크를 통해 토큰의 임베딩을 전파하는 것입니다.
이 설계는 LN(Layer Norm)을 각 하위 계층에 대한 "Pre-processing" 단계로 추가하며, 종종 "Pre-LN"이라고 하며 GPT와 Megatron과 같이 잘 알려진 대형 모델에 채택되어 사용하고 있습니다.
RealFormer
이 논문에서는 전체 네트워크를 통해 Raw Attention Score를 전파하는 "Direct" 경로를 만드는 것이 유익함을 보여주기 위해 간단한 트랜스포머 기반 아키텍처를 제안합니다.
RealForme는 Post-LN 설계와 가까우며, 인접한 계층에서 Multi-Head Attention 모듈을 연결하기 위해 Skip Edge를 추가합니다.
Post-LN, RealFormer 비교
1. Multi-Head
기존의 Post-LN 인코더에 있는 Multi-Head가 구해지는 방법입니다.
RealFormer는 공식적으로 Multi-Head를 Residual Multi-Head로 지정하였으며 이전 계층의 Pre-softmax Attention Score인 Prev를 현재 계층에서 Multi-Head Attention 모듈의 추가 입력으로 추가하였습니다.
2. Attention
또한 Attention function은 일반적으로 값의 가중 합계를 계산하는 Scaled Dot-Product Attention 모듈을 이용해 구현됩니다.
RealFormer는 또한 Attention을 Residual Attention으로 지정하였으며 Prev에 "Residual Scores"를 추가한 다음 가중 합계를 계산합니다.
3. Attention Scores
Post-LN의 경우 FFN을 거치고 마지막으로 위의 두 하위 계층에 삽입된 Layer Nrom 모듈로 훈련을 안정화합니다.
결과적으로 RealFormer에서는 다음과 같은 새로운 Attention Score가 다음 레이어로 전달됩니다.
Experiments
실험은 기존의 BERT가 학습한 것과 동일하게 적용하며 Post-LN, Pre-LN, RealFormer를 이용해 학습합니다.
- Dataset : Wikipedia + BookCorpus,
- Vocab : Uncased 30K,
- Max_sequence_length : 512^3,
- Dropout : 10%,
- Learning_rate = 1e-4,
- Learning rate Schedule : warm up and linearly decay to 0, weight decay : 0.01,
- Optimizer : AdamW,
- Objective : Masked Language Modeling + Next Sentence Prediction, etc.
Pre-Training Result
RealFormer는 모델 크기에 따라 갭이 증가함에 따라 두 가지 기준 트랜스포머를 크게 능가합니다. 그들의 가설은 더 큰 모델들이 본질적으로 훈련하기가 더 어렵다는 것입니다.
(그들은 Post-LN을 가진 BERT가 불안정하고 때로는 xLarge에 대해 갈라진다는 것을 관찰했습니다.)
그리고 RealFormer는 모델을 정규화하고 훈련을 안정화하는 데 도움이 될 수 있습니다.
Downstream Evaluation Results
그들은 Post-LN, Pre-LN, RealFormer로 학습시킨 BERT-Large를 가지고 GLUE, SQuAD v1.1, v2.0 을 다운스트림 테스크 평가에 사용했습니다.
RealFormer는 전반적으로 최고 성능을 달성하고 대부분의 작업에서 Post-LN, Pre-LN Transformer를 능가하여 문장 수준의 작업을 처리하는 데 있어 그 강점을 입증합니다.
'NLP 자연어 처리, Natural Language Processing' 카테고리의 다른 글
부트스트랩, Bootstrap in ML (0) | 2021.02.17 |
---|---|
나만의 Tokenizer, vocab 만들기 (0) | 2021.02.02 |
ELECTRA : Pre-training Text Encoders as Discriminators Rather Than Generators (0) | 2021.01.19 |
네이버 개발자센터(NAVER Developers), 번역 API 사용해보기 (0) | 2021.01.07 |
BLEU score (Bilingual Evaluation Understudy score) (0) | 2020.12.21 |