RealFormer: Transformer Likes Residual Attention
RealFormer: Transformer Likes Residual Attention
Ruining He, Anirudh Ravula, Bhargav Kanagal, Joshua Ainslie
트랜스포머 아키텍처는 BERT, GPT와 같은 수많은 최첨단 자연어처리(NLP, Natural Language Processing) 모델의 중추이며 학계와 산업계 모두에서 광범위한 성공을 거두었습니다.
Post-LN
일반적으로 트랜스포머 네트워크는 잔여 계층(Residual Layers) 스택으로 구성됩니다.
원래의 디자인은 그림과 같이 각 하위 계층에 대한 "후처리(Post-processing)" 단계로 LN(Layer Norm)을 추가하는 "Post-LN" 구조를 따릅니다.
이 방식은 BERT, XLNet, RoBERTa, ALBERT 등에 채택되어 왔습니다.
Pre-LN
또 다른 설계는 레이어 안의 서브 레이어의 순서를 재구성하여 "Direct" / "Clean" 경로를 만들어 전체 네트워크를 통해 토큰의 임베딩을 전파하는 것입니다.
이 설계는 LN(Layer Norm)을 각 하위 계층에 대한 "Pre-processing" 단계로 추가하며, 종종 "Pre-LN"이라고 하며 GPT와 Megatron과 같이 잘 알려진 대형 모델에 채택되어 사용하고 있습니다.
RealFormer
이 논문에서는 전체 네트워크를 통해 Raw Attention Score를 전파하는 "Direct" 경로를 만드는 것이 유익함을 보여주기 위해 간단한 트랜스포머 기반 아키텍처를 제안합니다.
RealForme는 Post-LN 설계와 가까우며, 인접한 계층에서 Multi-Head Attention 모듈을 연결하기 위해 Skip Edge를 추가합니다.
Post-LN, RealFormer 비교
1. Multi-Head
기존의 Post-LN 인코더에 있는 Multi-Head가 구해지는 방법입니다.
RealFormer는 공식적으로 Multi-Head를 Residual Multi-Head로 지정하였으며 이전 계층의 Pre-softmax Attention Score인 Prev를 현재 계층에서 Multi-Head Attention 모듈의 추가 입력으로 추가하였습니다.
2. Attention
또한 Attention function은 일반적으로 값의 가중 합계를 계산하는 Scaled Dot-Product Attention 모듈을 이용해 구현됩니다.
RealFormer는 또한 Attention을 Residual Attention으로 지정하였으며 Prev에 "Residual Scores"를 추가한 다음 가중 합계를 계산합니다.
3. Attention Scores
Post-LN의 경우 FFN을 거치고 마지막으로 위의 두 하위 계층에 삽입된 Layer Nrom 모듈로 훈련을 안정화합니다.
결과적으로 RealFormer에서는 다음과 같은 새로운 Attention Score가 다음 레이어로 전달됩니다.
Experiments
실험은 기존의 BERT가 학습한 것과 동일하게 적용하며 Post-LN, Pre-LN, RealFormer를 이용해 학습합니다.
- Dataset : Wikipedia + BookCorpus,
- Vocab : Uncased 30K,
- Max_sequence_length : 512^3,
- Dropout : 10%,
- Learning_rate = 1e-4,
- Learning rate Schedule : warm up and linearly decay to 0, weight decay : 0.01,
- Optimizer : AdamW,
- Objective : Masked Language Modeling + Next Sentence Prediction, etc.
Pre-Training Result
RealFormer는 모델 크기에 따라 갭이 증가함에 따라 두 가지 기준 트랜스포머를 크게 능가합니다. 그들의 가설은 더 큰 모델들이 본질적으로 훈련하기가 더 어렵다는 것입니다.
(그들은 Post-LN을 가진 BERT가 불안정하고 때로는 xLarge에 대해 갈라진다는 것을 관찰했습니다.)
그리고 RealFormer는 모델을 정규화하고 훈련을 안정화하는 데 도움이 될 수 있습니다.
Downstream Evaluation Results
그들은 Post-LN, Pre-LN, RealFormer로 학습시킨 BERT-Large를 가지고 GLUE, SQuAD v1.1, v2.0 을 다운스트림 테스크 평가에 사용했습니다.
RealFormer는 전반적으로 최고 성능을 달성하고 대부분의 작업에서 Post-LN, Pre-LN Transformer를 능가하여 문장 수준의 작업을 처리하는 데 있어 그 강점을 입증합니다.