본문 바로가기

NLP 자연어 처리, Natural Language Processing

RealFormer: Transformer Likes Residual Attention

RealFormer: Transformer Likes Residual Attention
Ruining He, Anirudh Ravula, Bhargav Kanagal, Joshua Ainslie

arxiv.org/abs/2012.11747

 

RealFormer: Transformer Likes Residual Attention

Transformer is the backbone of modern NLP models. In this paper, we propose RealFormer, a simple Residual Attention Layer Transformer architecture that significantly outperforms canonical Transformers on a spectrum of tasks including Masked Language Modeli

arxiv.org

 

트랜스포머 아키텍처는 BERT, GPT와 같은 수많은 최첨단 자연어처리(NLP, Natural Language Processing) 모델의 중추이며 학계와 산업계 모두에서 광범위한 성공을 거두었습니다.

 

Post-LN

 

일반적으로 트랜스포머 네트워크는 잔여 계층(Residual Layers) 스택으로 구성됩니다.

 

원래의 디자인은 그림과 같이 각 하위 계층에 대한 "후처리(Post-processing)" 단계로 LN(Layer Norm)을 추가하는 "Post-LN" 구조를 따릅니다.

 

이 방식은 BERT, XLNet, RoBERTa, ALBERT 등에 채택되어 왔습니다.

 

Post-LN

 

Pre-LN

 

또 다른 설계는 레이어 안의 서브 레이어의 순서를 재구성하여 "Direct" / "Clean" 경로를 만들어 전체 네트워크를 통해 토큰의 임베딩을 전파하는 것입니다.

 

이 설계는 LN(Layer Norm)을 각 하위 계층에 대한 "Pre-processing" 단계로 추가하며, 종종 "Pre-LN"이라고 하며 GPT와 Megatron과 같이 잘 알려진 대형 모델에 채택되어 사용하고 있습니다.

 

Pre-LN

 

RealFormer

 

이 논문에서는 전체 네트워크를 통해 Raw Attention Score를 전파하는 "Direct" 경로를 만드는 것이 유익함을 보여주기 위해 간단한 트랜스포머 기반 아키텍처를 제안합니다.

 

RealForme는 Post-LN 설계와 가까우며, 인접한 계층에서 Multi-Head Attention 모듈을 연결하기 위해 Skip Edge를 추가합니다.

 

RealFormer

 

Post-LN, RealFormer 비교

 

1. Multi-Head

 

기존의 Post-LN 인코더에 있는 Multi-Head가 구해지는 방법입니다. 

Post-LN, Multi-Head Eqation

RealFormer는 공식적으로 Multi-Head를 Residual Multi-Head로 지정하였으며 이전 계층의 Pre-softmax Attention Score인 Prev를 현재 계층에서 Multi-Head Attention 모듈의 추가 입력으로 추가하였습니다. 

RealFormer, Residual Multi-Head Equation

 

2. Attention

 

또한 Attention function은 일반적으로 값의 가중 합계를 계산하는 Scaled Dot-Product Attention 모듈을 이용해 구현됩니다.

Post-LN, Attention

RealFormer는 또한 Attention을 Residual Attention으로 지정하였으며 Prev에  "Residual Scores"를 추가한 다음 가중 합계를 계산합니다.

RealFormer, Residual Attention

3. Attention Scores

(좌) Post-LN, (우) RealFormer, Attention Scores

Post-LN의 경우 FFN을 거치고 마지막으로 위의 두 하위 계층에 삽입된 Layer Nrom 모듈로 훈련을 안정화합니다.

결과적으로 RealFormer에서는 다음과 같은 새로운 Attention Score가 다음 레이어로 전달됩니다.

 

Experiments

실험은 기존의 BERT가 학습한 것과 동일하게 적용하며 Post-LN, Pre-LN, RealFormer를 이용해 학습합니다.

  • Dataset : Wikipedia + BookCorpus,
  • Vocab : Uncased 30K,
  • Max_sequence_length : 512^3,
  • Dropout : 10%,
  • Learning_rate = 1e-4,
  • Learning rate Schedule : warm up and linearly decay to 0, weight decay : 0.01,
  • Optimizer : AdamW,
  • Objective : Masked Language Modeling + Next Sentence Prediction, etc.

Pre-Training Result

RealFormer는 모델 크기에 따라 갭이 증가함에 따라 두 가지 기준 트랜스포머를 크게 능가합니다. 그들의 가설은 더 큰 모델들이 본질적으로 훈련하기가 더 어렵다는 것입니다.

(그들은 Post-LN을 가진 BERT가 불안정하고 때로는 xLarge에 대해 갈라진다는 것을 관찰했습니다.)

 

그리고 RealFormer는 모델을 정규화하고 훈련을 안정화하는 데 도움이 될 수 있습니다.

 

Downstream Evaluation Results

 

그들은 Post-LN, Pre-LN, RealFormer로 학습시킨 BERT-Large를 가지고 GLUE, SQuAD v1.1, v2.0 을 다운스트림 테스크 평가에 사용했습니다.

RealFormer는 전반적으로 최고 성능을 달성하고 대부분의 작업에서 Post-LN, Pre-LN Transformer를 능가하여 문장 수준의 작업을 처리하는 데 있어 그 강점을 입증합니다.

 

반응형