RealFormer: Transformer Likes Residual Attention

RealFormer: Transformer Likes Residual Attention
Ruining He, Anirudh Ravula, Bhargav Kanagal, Joshua Ainslie

arxiv.org/abs/2012.11747

Transformer is the backbone of modern NLP models. In this paper, we propose RealFormer, a simple Residual Attention Layer Transformer architecture that significantly outperforms canonical Transformers on a spectrum of tasks including Masked Language Modeli

arxiv.org

트랜스포머 아키텍처는 BERT, GPT와 같은 수많은 최첨단 자연어처리(NLP, Natural Language Processing) 모델의 중추이며 학계와 산업계 모두에서 광범위한 성공을 거두었습니다.

Post-LN

일반적으로 트랜스포머 네트워크는 잔여 계층(Residual Layers) 스택으로 구성됩니다.

원래의 디자인은 그림과 같이 각 하위 계층에 대한 "후처리(Post-processing)" 단계로 LN(Layer Norm)을 추가하는 "Post-LN" 구조를 따릅니다.

이 방식은 BERT, XLNet, RoBERTa, ALBERT 등에 채택되어 왔습니다.

Pre-LN

또 다른 설계는 레이어 안의 서브 레이어의 순서를 재구성하여 "Direct" / "Clean" 경로를 만들어 전체 네트워크를 통해 토큰의 임베딩을 전파하는 것입니다.

이 설계는 LN(Layer Norm)을 각 하위 계층에 대한 "Pre-processing" 단계로 추가하며, 종종 "Pre-LN"이라고 하며 GPT와 Megatron과 같이 잘 알려진 대형 모델에 채택되어 사용하고 있습니다.

RealFormer

이 논문에서는 전체 네트워크를 통해 Raw Attention Score를 전파하는 "Direct" 경로를 만드는 것이 유익함을 보여주기 위해 간단한 트랜스포머 기반 아키텍처를 제안합니다.

RealForme는 Post-LN 설계와 가까우며, 인접한 계층에서 Multi-Head Attention 모듈을 연결하기 위해 Skip Edge를 추가합니다.

Post-LN, RealFormer 비교

1. Multi-Head

기존의 Post-LN 인코더에 있는 Multi-Head가 구해지는 방법입니다.

RealFormer는 공식적으로 Multi-Head를 Residual Multi-Head로 지정하였으며 이전 계층의 Pre-softmax Attention Score인 Prev를 현재 계층에서 Multi-Head Attention 모듈의 추가 입력으로 추가하였습니다.

RealFormer, Residual Multi-Head Equation

2. Attention

또한 Attention function은 일반적으로 값의 가중 합계를 계산하는 Scaled Dot-Product Attention 모듈을 이용해 구현됩니다.

RealFormer는 또한 Attention을 Residual Attention으로 지정하였으며 Prev에 "Residual Scores"를 추가한 다음 가중 합계를 계산합니다.

3. Attention Scores

(좌) Post-LN, (우) RealFormer, Attention Scores

Post-LN의 경우 FFN을 거치고 마지막으로 위의 두 하위 계층에 삽입된 Layer Nrom 모듈로 훈련을 안정화합니다.

결과적으로 RealFormer에서는 다음과 같은 새로운 Attention Score가 다음 레이어로 전달됩니다.

Experiments

실험은 기존의 BERT가 학습한 것과 동일하게 적용하며 Post-LN, Pre-LN, RealFormer를 이용해 학습합니다.

Dataset : Wikipedia + BookCorpus,
Vocab : Uncased 30K,
Max_sequence_length : 512^3,
Dropout : 10%,
Learning_rate = 1e-4,
Learning rate Schedule : warm up and linearly decay to 0, weight decay : 0.01,
Optimizer : AdamW,
Objective : Masked Language Modeling + Next Sentence Prediction, etc.

Pre-Training Result

RealFormer는 모델 크기에 따라 갭이 증가함에 따라 두 가지 기준 트랜스포머를 크게 능가합니다. 그들의 가설은 더 큰 모델들이 본질적으로 훈련하기가 더 어렵다는 것입니다.

(그들은 Post-LN을 가진 BERT가 불안정하고 때로는 xLarge에 대해 갈라진다는 것을 관찰했습니다.)

그리고 RealFormer는 모델을 정규화하고 훈련을 안정화하는 데 도움이 될 수 있습니다.

Downstream Evaluation Results

그들은 Post-LN, Pre-LN, RealFormer로 학습시킨 BERT-Large를 가지고 GLUE, SQuAD v1.1, v2.0 을 다운스트림 테스크 평가에 사용했습니다.

RealFormer는 전반적으로 최고 성능을 달성하고 대부분의 작업에서 Post-LN, Pre-LN Transformer를 능가하여 문장 수준의 작업을 처리하는 데 있어 그 강점을 입증합니다.

'NLP 자연어 처리, Natural Language Processing' 카테고리의 다른 글

부트스트랩, Bootstrap in ML (0)	2021.02.17
나만의 Tokenizer, vocab 만들기 (0)	2021.02.02
ELECTRA : Pre-training Text Encoders as Discriminators Rather Than Generators (0)	2021.01.19
네이버 개발자센터(NAVER Developers), 번역 API 사용해보기 (0)	2021.01.07
BLEU score (Bilingual Evaluation Understudy score) (0)	2020.12.21

choice

RealFormer: Transformer Likes Residual Attention

Post-LN

Pre-LN

RealFormer

Post-LN, RealFormer 비교

Experiments

Pre-Training Result

Downstream Evaluation Results

'NLP 자연어 처리, Natural Language Processing' 카테고리의 다른 글

티스토리툴바

RealFormer: Transformer Likes Residual Attention

Post-LN

Pre-LN

RealFormer

Post-LN, RealFormer 비교

Experiments

Pre-Training Result

Downstream Evaluation Results

'NLP 자연어 처리, Natural Language Processing' 카테고리의 다른 글

'NLP 자연어 처리, Natural Language Processing' Related Articles

티스토리툴바