Programming/(Python)(Ubuntu)

BART 논문 번역

$choice 2020. 3. 16. 17:12

요약

우리는 시퀀스-시퀀스 모델의 사전 훈련을위한 노이즈 제거 자동 인코더 인 BART를 제시합니다. BART는 (1) 임의의 노이즈 기능으로 텍스트를 손상시키고 (2) 원본 텍스트를 재구성하는 모델을 학습함으로써 학습됩니다. 단순성에도 불구하고 BERT (양방향 인코더로 인해), GPT (왼쪽에서 오른쪽으로 디코더 사용) 및 기타 더 최근의 사전 훈련 체계를 일반화하는 것으로 볼 수있는 표준 Tranformer 기반 신경 기계 변환 아키텍처를 사용합니다. . 우리는 수많은 문장 접근 방식을 평가하여 원래 문장의 순서를 무작위로 섞고 소설 범위를 단일 마스크 토큰으로 대체하는 새로운 입력 체계를 사용하여 최상의 성능을 찾습니다. BART는 텍스트 생성에 맞게 미세 조정할 때 특히 효과적이지만 이해 작업에도 효과적입니다. 로버타의 성능은 GLUE 및 SQuAD에 대한 비슷한 교육 리소스와 일치하며, 최대 6 개의 ROUGE를 통해 다양한 추상적 대화, 질문 응답 및 요약 작업에 대한 새로운 최신 결과를 얻을 수 있습니다. 또한 BART는 대상 언어 사전 교육만으로 기계 번역을위한 역 번역 시스템에 비해 1.1 BLEU 증가를 제공합니다. 또한 BART 프레임 워크 내에서 다른 사전 훈련 체계를 복제하여 최종 작업 성능에 가장 영향을 미치는 요소를 더 잘 측정하는 절제 실험을보고합니다. 대상 언어 사전 훈련 만 또한 BART 프레임 워크 내에서 다른 사전 훈련 체계를 복제하여 최종 작업 성능에 가장 영향을 미치는 요소를 더 잘 측정하는 절제 실험을보고합니다. 대상 언어 사전 훈련 만 또한 BART 프레임 워크 내에서 다른 사전 훈련 체계를 복제하여 최종 작업 성능에 가장 영향을 미치는 요소를 더 잘 측정하는 절제 실험을보고합니다.

1 소개

자체 감독 방법은 광범위한 NLP 작업에서 놀라운 성공을 거두었습니다 word2vec ; 엘모 ; 버트 ; 스패 버트 ; xlnet ; 로베르타 . 가장 성공적인 접근 방식은 마스크 언어 모델의 변형으로, 단어의 임의의 하위 집합이 마스크 처리 된 텍스트를 재구성하도록 훈련 된 자동 인코더를 제거합니다. 최근 연구에 따르면 마스크 된 토큰 spanbert 의 분포, 마스크 된 토큰이  xlnet 예측  순서 및 마스크 된 토큰을 대체 할 수있는 컨텍스트를 개선하여  이익을 얻었습니다.. 그러나 이러한 방법은 일반적으로 특정 유형의 최종 작업 (예 : 스팬 예측, 생성 등)에 중점을두고 적용 가능성을 제한합니다.

본 논문에서는 양방향 및 자동 회귀 변압기를 결합한 모델을 사전 훈련시키는 BART를 제시한다. BART는 광범위한 최종 작업에 적용 할 수있는 시퀀스-시퀀스 모델로 구축 된 노이즈 제거 자동 인코더입니다. 프리 트레이닝에는 두 단계가 있습니다. (1) 임의의 노이즈 기능으로 텍스트가 손상되고 (2) 원본 텍스트를 재구성하기 위해 시퀀스-시퀀스 모델이 학습됩니다. BART는 단순성에도 불구하고 BERT (양방향 엔코더로 인해), GPT (왼쪽에서 오른쪽으로 디코더 사용) 및 기타 더 최근의 다른 사전 훈련 체계를 일반화 할 수있는 표준 Tranformer 기반 신경 기계 변환 아키텍처를 사용합니다. (그림 1 참조 ).

이 설정의 주요 장점은 노이즈 유연성입니다. 길이 변경을 포함하여 임의의 변형을 원본 텍스트에 적용 할 수 있습니다. 우리는 수많은 문장 접근 방식을 평가하여 원래 문장의 순서를 무작위로 섞고 임의의 텍스트 길이 (0 길이 포함)가 단일 마스크 토큰으로 대체되는 새로운 입력 체계를 사용하여 최상의 성능을 찾습니다. 이 접근법은 모델이 전체 문장 길이에 대해 더 많은 추론을하고 입력에 대한 더 긴 범위 변환을하도록하여 BERT의 원래 단어 마스킹 및 다음 문장 예측 목표를 일반화합니다.

     

그림 1 : BART와 BERT bert 및 GPT gpt 의 개략적 인 비교 .

BART는 텍스트 생성에 맞게 미세 조정할 때 특히 효과적이지만 이해 작업에도 효과적입니다. 로버타 로베르타 의 성능은 GLUE 글루 및 SQuAD  에 대한 비슷한 교육 리소스와 일치 하며 다양한 추상적 대화, 질문 답변 및 요약 작업에 대한 새로운 최신 결과를 얻습니다. 예를 들어 XSum xsum의 이전 작업에 비해 6 ROUGE의 성능을 향상시킵니다 .

BART는 또한 미세 조정에 대한 새로운 사고 방식을 제시합니다. BART 모델이 몇 개의 추가 변압기 레이어 위에 쌓이는 새로운 기계 번역 기법을 제시합니다. 이 레이어들은 BART를 통한 전파에 의해 외국어를 노이즈 영어로 본질적으로 번역하도록 훈련되어 BART를 사전 훈련 된 목표 측 언어 모델로 사용합니다. 이 접근 방식은 WMT 루마니아어-영어 벤치 마크에서 강력한 역 번역 MT 기준선에 비해 1.1 BLEU의 성능을 향상시킵니다.

이러한 효과를 더 잘 이해하기 위해 최근에 제안 된 다른 훈련 목표를 모사하는 절제 분석도보고합니다. 이 연구를 통해 데이터 및 최적화 매개 변수를 포함한 다양한 요인을 신중하게 제어 할 수 있습니다.이 매개 변수는 훈련 목표 선택 roberta 와 같이 전반적인 성능에 중요한 것으로 나타  났습니다 . 우리는 BART가 우리가 고려하는 모든 범위의 작업에서 가장 일관된 강력한 성능을 보여줍니다.

그림 2 : 우리가 실험 한 입력에 대한 노이즈 변환. 이러한 변환을 구성 할 수 있습니다.

2 모델

BART는 손상된 문서를 원본 문서에 매핑하는 노이즈 제거 자동 인코더입니다. 손상된 텍스트에 대한 양방향 인코더와 왼쪽에서 오른쪽으로 자동 회귀 디코더가있는 시퀀스-시퀀스 모델로 구현됩니다. 사전 교육을 위해 원본 문서의 음수 로그 가능성을 최적화합니다.

2.1 아키텍처

BART가에서 표준 시퀀스에 시퀀스 변압기 아키텍처를 사용 vaswani : 2017 , 우리가 GeLUs에 ReLU 활성화 기능을 수정하는 것이, GPT에 따라 제외 ( 겔루 ) 에서와 초기화 매개 변수 . 기본 모델의 경우 인코더와 디코더에 6 개의 레이어를 사용하고 큰 모델의 경우 각각 12 개의 레이어를 사용합니다. 아키텍처는 BERT에서 사용되는 것과 밀접한 관련이 있으며 다음과 같은 차이점이 있습니다. (2) BERT는 단어 예측 전에 추가 피드 포워드 네트워크를 사용하지만 BART는 그렇지 않습니다. 전체적으로 BART에는 동일한 크기의 BERT 모델보다 대략 10 % 더 많은 매개 변수가 포함되어 있습니다.

2.2 사전 훈련 BART

BART는 문서를 손상시킨 다음 디코더의 출력과 원본 문서 사이의 교차 엔트로피 인 재구성 손실을 최적화함으로써 학습됩니다. 특정 소음 체계에 맞게 조정 된 기존 소음 제거 자동 인코더와 달리 BART를 사용하면 모든 유형의 문서 손상 을 적용 할 수 있습니다 . 소스에 대한 모든 정보가 손실되는 극단적 인 경우 BART는 언어 모델과 같습니다.

우리는 이전에 제안 된 새로운 변형을 실험하지만 다른 새로운 대안의 개발에 상당한 잠재력이 있다고 생각합니다. 우리가 사용한 변환은 아래에 요약되어 있으며 예제는 그림  2에 나와 있습니다.

토큰 마스킹

BERT bert 다음 에 임의 토큰이 샘플링되고 [MASK] 요소 로 대체됩니다 .

토큰 삭제

입력에서 임의 토큰이 삭제됩니다. 토큰 마스킹과 달리 모델은 입력이없는 위치를 결정해야합니다.

텍스트 채우기

Poisson 분포 (  ) 에서 스팬 길이를 사용하여 여러 텍스트 스팬이 샘플링 됩니다. 각 범위는 단일 [MASK] 토큰으로 대체됩니다 . 길이가 0 인 범위는 [MASK] 토큰 삽입에 해당합니다 . 텍스트 채움은 SpanBERT spanbert 에서 영감을 얻었 지만 SpanBERT 샘플은 길이가 다른 (클램프 된 기하학적) 분포에서 길이를 확장하며 각 범위 를 정확히 동일한 길이  [MASK] 토큰 시퀀스로 대체합니다 . 텍스트 채움은 모델이 범위에서 누락 된 토큰 수를 예측하도록 지시합니다.

문장 순열

문서는 전체 정지를 기준으로 문장으로 구분되며이 문장은 임의 순서로 섞입니다.

문서 회전

토큰은 무작위로 균일하게 선택되며 문서는 해당 토큰으로 시작하도록 회전됩니다. 이 작업은 모델이 문서의 시작을 식별하도록 훈련시킵니다.

   

그림 3 : 분류 및 번역을위한 미세 조정 BART.

3 미세 조정 BART

BART에 의해 생성 된 표현은 다운 스트림 애플리케이션에 여러 가지 방식으로 사용될 수 있습니다.

3.1 서열 분류 작업

시퀀스 분류 작업의 경우 동일한 입력이 인코더와 디코더에 공급되고 최종 디코더 토큰의 최종 숨겨진 상태는 새로운 멀티 클래스 선형 분류기에 공급됩니다. 이 접근법은 BERT의 CLS 토큰과 관련이 있습니다. 그러나 디코더의 토큰 표현이 완전한 입력에서 디코더 상태에 참여할 수 있도록 끝에 추가 토큰을 추가합니다 (그림 2 (a) ).

3.2 토큰 분류 작업

SQuAD에 대한 응답 종점 분류와 같은 토큰 분류 작업의 경우 완전한 문서를 인코더와 디코더에 공급하고 디코더의 숨겨진 숨겨진 상태를 각 단어의 표현으로 사용합니다. 이 표현은 토큰을 분류하는 데 사용됩니다.

3.3 시퀀스 생성 작업

BART에는 자동 회귀 디코더가 있기 때문에 추상적 질문 응답 및 요약과 같은 시퀀스 생성 작업에 맞게 직접 조정할 수 있습니다. 이 두 가지 작업에서 정보는 입력에서 복사되지만 조작되지만 이는 노이즈 제거 사전 훈련 목표와 밀접한 관련이 있습니다. 여기서, 인코더 입력은 입력 시퀀스이고, 디코더는 자동 회귀 적으로 출력을 생성한다.

3.4 기계 번역

또한 영어 번역을 위해 기계 번역 디코더를 개선하기 위해 BART를 사용하는 방법도 살펴 봅니다. 이전 작업 edunov2019pre는 사전 훈련 된 인코더를 통합하여 모델을 개선 할 수 있지만 디코더에서 사전 훈련 된 언어 모델을 사용함으로써 얻는 이득은 제한적입니다. bitext에서 배운 새로운 인코더 매개 변수 세트를 추가하여 기계 번역을위한 단일 사전 훈련 된 디코더로 전체 BART 모델 (인코더 및 디코더 모두)을 사용할 수 있음을 보여줍니다 (그림 2 (b) 참조 ).

보다 정확하게는 BART의 엔코더 임베딩 레이어를 무작위로 초기화 된 새로운 엔코더로 대체합니다. 이 모델은 엔드 투 엔드로 훈련되며, 새로운 인코더가 외국어를 BART가 영어로 노이즈 제거 할 수있는 입력에 매핑하도록 훈련시킵니다. 새로운 엔코더는 원래 BART 모델과 다른 어휘를 사용할 수 있습니다.

BART 모델의 출력에서 ​​교차 엔트로피 손실을 역 전파하는 두 경우 모두 소스 엔코더를 두 단계로 학습합니다. 첫 번째 단계에서는 대부분의 BART 매개 변수를 고정시키고 무작위로 초기화 된 소스 인코더, BART 위치 임베딩 및 BART 인코더 첫 번째 레이어의 자체주의 입력 투영 매트릭스 만 업데이트합니다. 두 번째 단계에서는 적은 반복 횟수에 대해 모든 모델 매개 변수를 학습합니다.

4 사전 훈련 목표 비교

BART는 이전 훈련보다 사전 훈련 과정에서 훨씬 더 광범위한 소음 체계를 지원합니다. 우리는 § 5의 전체 대규모 실험에 대해 고려할 작업의 대표적인 하위 세트에서 평가 된 기본 크기 모델 (6 개의 인코더 및 6 개의 디코더 레이어, 숨겨진 크기 768)을 사용하여 다양한 옵션을 비교합니다 .

4.1 비교 목표

많은 사전 훈련 목표가 제안되었지만, 훈련 데이터, 훈련 자원, 모델 간의 구조적 차이 및 미세 조정 절차의 차이로 인해 이들 간의 공정한 비교는 수행하기 어려웠다. 우리는 최근에 차별 및 생성 작업을 위해 제안 된 강력한 사전 훈련 방법을 다시 구현합니다. 우리는 가능한 한 사전 훈련 목표와 관련이없는 차이를 통제하는 것을 목표로합니다. 그러나 성능을 향상시키기 위해 학습 속도와 레이어 정규화 사용을 약간 변경합니다 (각 목표에 대해 개별적으로 조정). 참고로 구현과 BERT의 게시 된 수치를 비교합니다.이 수치는 서적과 위키 백과 데이터 조합에 대한 1M 단계 훈련도 제공했습니다. 다음과 같은 접근 방식을 비교합니다.

모델BERT베이스 버트마스크 언어 모델마스크 된 Seq2seq언어 모델순열 된 언어 모델멀티 태스크 마스크 언어 모델바트베이스토큰 마스킹토큰 삭제텍스트 입력 포함문서 회전문장 섞기텍스트 입력 + 문장 섞기

SQuAD 1.1 MNLI ELI5 XSum ConvAI2 CNN / DM
F1 Acc PPL PPL PPL PPL
88.5 84.3 - - - -
90.0 83.5 24.77   7.87 12.59   7.06
87.0 82.1 23.40   6.80 11.43   6.19
76.7 80.1 21.40   7.00 11.51   6.56
89.1 83.7 24.03   7.69 12.23   6.96
89.2 82.4 23.73   7.50 12.39   6.74
90.4 84.1 25.05   7.08 11.73   6.10
90.4 84.1 24.61   6.90 11.46   5.87
90.8 84.0 24.26   6.61 11.05   5.83
77.2 75.3 53.69 17.14 19.87 10.59
85.4 81.5 41.87 10.93 16.67   7.89
90.8 83.8 24.17   6.62 11.12   5.41

표 1 : 사전 훈련 목표의 비교. 모든 모델은 비슷한 크기이며 책과 위키 백과 데이터의 조합에 대해 1M 단계로 훈련되었습니다. 맨 아래 두 블록의 항목은 동일한 코드 기반을 사용하여 동일한 데이터에 대해 학습되며 동일한 절차로 미세 조정됩니다. 두 번째 블록의 항목은 이전 작업에서 제안 된 사전 훈련 목표에서 영감을 얻었지만 평가 목표에 중점을 두도록 단순화되었습니다 (§ 4.1 참조 ). 성능은 작업마다 상당히 다르지만 텍스트가 채워진 BART 모델은 가장 일관된 성능을 보여줍니다.언어 모델

GPT ( gpt )  마찬가지로 왼쪽에서 오른쪽으로 트랜스포머 언어 모델을 학습합니다. 이 모델은 교차주의없이 BART 디코더와 동일합니다.

순열 된 언어 모델

XLNet ( xlnet )을 기반으로 토큰의 1/6을 샘플링하여 임의 순서로 자동 회귀 적으로 생성합니다. 다른 모델과 일관성을 유지하기 위해 XLNet의 세그먼트간에 상대적인 위치 임베드 또는주의를 구현하지 않습니다.

마스크 언어 모델

BERT ( bert ) 다음 에 토큰의 15 %를 [MASK] 기호로 바꾸고 모델을 학습하여 원래 토큰을 독립적으로 예측합니다.

멀티 태스크 마스크 언어 모델

UniLM ( unilm ) 에서와 같이 추가 자기 관심 마스크로 마스크 언어 모델을 학습합니다. 자체주의 마스크는 1/6 왼쪽에서 오른쪽으로, 1/6 오른쪽에서 왼쪽으로, 1/3은 마스크되지 않고 1/3은 마스크되지 않은 토큰의 첫 50 %는 왼쪽으로 1/3의 비율로 무작위로 선택됩니다. 나머지에 대한 오른쪽 마스크.

마스크 된 시퀀스-시퀀스

MASS ( mass ) 에서 영감을 받아 50 %의 토큰을 포함하는 범위를 마스크하고 시퀀스 모델에 시퀀스를 훈련시켜 마스크 된 토큰을 예측합니다.

Permuted LM, Masked LM 및 Multitask Masked LM의 경우 2 스트림주의 ( xlnet ) 를 사용하여 시퀀스의 출력 부분에 대한 가능성을 효율적으로 계산합니다 (출력의 대각선 자체주의 마스크를 사용하여 왼쪽에서 왼쪽으로 권리).

우리는 (1) 태스크를 표준 ​​시퀀스-시퀀스 문제로 처리하여 인코더와 대상에 대한 소스 입력이 디코더 출력이거나 (2) 소스를 디코더의 대상에 접두사로 추가합니다. 시퀀스의 대상 부분에서만 손실이 발생합니다. 우리는 전자가 BART 모델에서 더 잘 작동하고 후자가 다른 모델에서 더 잘 작동한다는 것을 알았습니다.

미세 조정 목표 (인간 텍스트의 로그 가능성)를 모델링 할 수있는 능력에 대한 모델을 가장 직접 비교하기 위해 표 1 에서 당황을보고 합니다.

4.2 작업

분대

분대 Wikipedia 단락에 대한 추출 질문 답변 작업. 답변은 주어진 문서 컨텍스트에서 추출 된 텍스트 범위입니다. BERTbert 와유사하게, 우리는 연결된 질문과 컨텍스트를 BART의 인코더에 대한 입력으로 사용하고 추가로 디코더에 전달합니다. 이 모델에는 각 토큰의 시작 및 끝 인덱스를 예측하는 분류 기가 포함되어 있습니다.

음리

( mnli ) , 한 문장이 다른 문장을 수반하는지 여부를 예측하기위한 bitext 분류 작업. 미세 조정 된 모델은 EOS 토큰이 추가 된 두 문장을 연결하고 BART 인코더와 디코더 모두에 전달합니다. BERT와 달리 EOS 토큰의 표현은 문장 관계를 분류하는 데 사용됩니다.

Eli5

( eli5 ) , 긴 형식의 추상적 질문 응답 데이터 세트. 모델은 질문과 보조 문서의 연결에 따라 답변을 생성합니다.

XSum

( xsum )- 요약이 요약 된 뉴스 요약 데이터 세트입니다.

ConvAI2

( convai2 ) , 대화 응답 생성 태스크, 컨텍스트 및 페르소나에 따라 조정됩니다.

Cnn / dm

뉴스 요약 데이터 세트 인 (cnn)여기의 요약은 일반적으로 소스 문장과 밀접한 관련이 있습니다.

4.3 결과

결과를 표 1에 나타낸다 . 몇 가지 추세가 분명합니다.

사전 훈련 방법의 성능은 작업마다 크게 다릅니다.

사전 훈련 방법의 효과는 작업에 크게 의존합니다. 예를 들어, 간단한 언어 모델은 최고의 ELI5 성능을 달성하지만 최악의 SQUAD 결과를 달성합니다.

토큰 마스킹이 중요합니다

회전하는 문서 또는 순열 문장을 기반으로 한 사전 훈련 목표는 고립 상태가 좋지 않습니다. 성공적인 방법은 토큰 삭제 또는 마스킹 또는 자체주의 마스크를 사용합니다. 삭제는 생성 작업에서 마스킹 성능을 능가하는 것으로 보입니다.

왼쪽에서 오른쪽으로 사전 교육을 통해 생성 향상

Masked Language Model과 Permuted Language Model은 생성시 다른 모델보다 성능이 떨어지며 사전 훈련 동안 왼쪽에서 오른쪽으로 자동 회귀 언어 모델링을 포함하지 않는 유일한 모델입니다.

양방향 인코더는 SQuAD에 중요합니다

이전 작업 bert 에서 언급했듯이 미래의 컨텍스트가 분류 결정에 중요하기 때문에 왼쪽에서 오른쪽 디코더 만 SQuAD에서 제대로 수행되지 않습니다. 그러나 BART는 양방향 레이어 수의 절반만으로 비슷한 성능을 달성합니다.

사전 훈련 목표가 유일한 중요한 요소는 아닙니다

Permuted Language Model은 XLNet xlnet 보다 성능이 떨어 집니다 . 이러한 차이점 중 일부는 상대 위치 포함 또는 세그먼트 수준 재발과 같은 다른 아키텍처 개선 사항을 포함하지 않았기 때문일 수 있습니다.

순수한 언어 모델은 ELI5에서 가장 잘 수행됩니다

ELI5 데이터 세트는 다른 작업보다 난이도가 높은 특이 치이며 다른 모델이 BART를 능가하는 유일한 세대 작업입니다. 순수한 언어 모델이 가장 잘 수행되므로 출력이 입력에 의해 느슨하게 제한 될 때 BART의 효율성이 떨어집니다.

BART는 가장 일관되게 강력한 성능을 달성합니다.

ELI5를 제외하고 텍스트 입력을 사용하는 BART 모델은 모든 작업에서 잘 수행됩니다.

SQuAD 1.1SQuAD 2.0MNLISSTQQPQNLISTS-BRTEMRPC콜라EM / F1EM / F1m / mmAccAccAccAccAccAccMcc버트UniLMXLNet로버타바트

84.1 / 90.9 79.0 / 81.8 86.6 /- 93.2 91.3 92.3 90.0 70.4 88.0 60.6
-/- 80.5 / 83.4 87.0 / 85.9 94.5 - 92.7 - 70.9 - 61.1
89.0 /94.5 86.1 / 88.8 89.8 /- 95.6 91.8 93.9 91.8 83.8 89.2 63.6
88.9 / 94.6 86.5 / 89.4 90.2 / 90.2 96.4 92.2 94.7 92.4 86.6 90.9 68.0
88.8 / 94.6 86.1 / 89.2 89.9 / 90.1 96.6 92.5 94.9 91.2 87.0 90.4 62.8

표 2 : SQuAD 및 GLUE 작업에 대한 대형 모델의 결과. BART는 RoBERTa 및 XLNet과 비교하여 성능이 뛰어나므로 BART의 단방향 디코더 레이어는 차별적 인 작업의 성능을 저하시키지 않습니다.

CNN / DailyMailXSumR1R2RLR1R2RL리드 -3PTGEN 참조 : 2017PTGEN + COV 참조 : 2017UniLM버츠 마브 ( 버트 섬 )BERTSUMEXTABS ( 버트 섬 )바트

40.42 17.62 36.67 16.30 1.60 11.95
36.44 15.66 33.42 29.70 9.21 23.24
39.53 17.28 36.38 28.10 8.02 21.72
43.33 20.21 40.51 - - -
41.72 19.39 38.76 38.76 16.33 31.15
42.13 19.60 39.18 38.81 16.50 31.27
44.16 21.28 40.90 45.14 22.27 37.25

표 3 : 2 개의 표준 요약 데이터 세트에 대한 결과. BART는보다 추상적 인 데이터 세트에서 대략 6 점을 얻음으로써 두 작업 및 모든 메트릭에 대한 요약에 대한 이전 작업보다 성능이 뛰어납니다.

5 가지 대규모 사전 훈련 실험

최근 연구에 따르면 프리 트레이닝을 대규모 배치 크기 ( xlnet ; roberta )  코포 라로 확장하면 다운 스트림 성능이 크게 향상 될 수 있습니다 . 이 체제에서 BART의 성능을 테스트하고 다운 스트림 작업에 유용한 모델을 만들기 위해 RoBERTa 모델과 동일한 규모를 사용하여 BART를 교육했습니다.

5.1 실험 설정

우리는 각각의 인코더와 디코더에 12 개의 레이어와 1024의 숨겨진 크기를 가진 큰 모델을 사전 훈련시킵니다. RoBERTa roberta에 따라 배치 크기는 8000을 사용하고 500000 단계를 위해 모델을 훈련시킵니다. 문서는 GPT-2 gpt2 와 동일한 바이트 쌍 인코딩으로 토큰 화됩니다 . 섹션 § 4 의 결과에 따라 텍스트 채우기와 문장 순열의 조합을 사용합니다. 각 문서에서 토큰의 30 %를 마스킹하고 모든 문장을 퍼뜨립니다. 문장 순열은 CNN / DM 요약 데이터 세트에서 상당한 추가 이득만을 보여 주지만, 우리는 사전 훈련 된 더 큰 모델이이 작업에서 더 잘 배울 수 있다고 가정했습니다. 모델이 데이터에 더 잘 맞도록 돕기 위해 훈련 단계의 마지막 10 %에 대해 드롭 아웃을 비활성화했습니다. 우리는 동일한 사전 훈련 데이터를 사용합니다roberta , 160Gb의 뉴스, 책, 이야기 및 웹 텍스트로 구성됩니다.

5.2 판별 작업

 2 는 잘 연구 된 SQuAD 및 GLUE 작업 ( warstadt2018neural ; socher2013recursive ; dolan2005automatically ; agirre2007semantic ; williams2018broad ; dagan2006pascal ; levesque2011winograd )에 대한 몇 가지 최근 접근 방식과 BART의 성능을 비교합니다 .

가장 직접적으로 비교할 수있는 기준선은 로버타 (RoBERTa)로, 동일한 리소스를 가지고 있지만 다른 목표로 사전 훈련을 받았습니다. 전반적으로, BART는 대부분의 작업에서 모델간에 약간의 차이만으로도 유사하게 수행됩니다. BART의 생성 작업 개선은 분류 성능을 희생하지 않습니다.

5.3 생성 작업

또한 몇 가지 텍스트 생성 작업을 실험합니다. BART는 입력에서 출력 텍스트까지 표준 시퀀스-시퀀스 모델로 미세 조정됩니다. 미세 조정 중에는 평활 매개 변수가 0.1로 설정된 레이블 평활 교차 엔트로피 손실 ( labelsmoothing ) 을 사용합니다. 생성하는 동안 빔 크기를 5로 설정하고 빔 검색에서 중복 된 트라이 그램을 제거하고 유효성 검사 세트 summarization_hacks 에서 min-len, max-len, length 페널티로 모델을 조정했습니다 .

요약

최신 요약과 비교하기 위해 고유 한 특성을 갖는 두 개의 요약 데이터 세트 인 CNN / DailyMail 및 XSum에 대한 결과를 제공합니다.

CNN / DailyMail의 요약은 소스 문장과 유사합니다. 추출 모델은 여기에서 잘 작동하며 처음 3 개의 소스 문장의 기준선까지도 경쟁이 치열합니다. 그럼에도 불구하고 BART는 기존의 모든 작업보다 성능이 뛰어납니다.

반면 XSum은 매우 추상적이며 추출 모델의 성능이 떨어집니다. BART는 모든 ROUGE 지표에서 약 6.0 포인트가 향상되어 BERT를 활용하는 이전의 최고의 작업보다 성능이 크게 향상되었습니다. 질적으로 샘플 품질이 높습니다 (§ 6 참조 ).

ConvAI2유효한 F1유효한 PPLSeq2Seq +주의최고의 시스템바트

16.02 35.07
19.09 17.51
20.72 11.85

표 4 : BART가 대화 형 응답 생성에 대한 이전 작업보다 성능이 우수합니다. 혼란은 ConvAI2의 공식 토크 나이저를 기반으로 다시 정규화됩니다.

ELI5R1R2RL최고의 추출언어 모델Seq2SeqSeq2Seq 멀티 태스킹바트

23.5 3.1 17.5
27.8 4.7 23.1
28.3 5.1 22.8
28.9 5.4 23.1
30.6 6.2 24.3

표 5 : BART는 까다로운 ELI5 추상적 질문 응답 데이터 세트에서 최첨단 결과를 달성합니다. 비교 모델은 eli5의 것 입니다.대화

우리는 ConvAI2 ( convai2 ) 에서 대화 응답 생성을 평가 하는데, 여기서 에이전트는 이전 컨텍스트와 텍스트로 지정된 페르소나에 따라 응답을 생성해야합니다. BART는 두 가지 자동 메트릭에서 이전 작업보다 성능이 뛰어납니다.

추상적 인 QA

최근 제안 된 ELI5 데이터 세트를 사용하여 긴 자유형 응답을 생성하는 모델의 기능을 테스트합니다. 우리는 BART가 1.2 ROUGE-L에 의해 최고의 이전 작업보다 성능이 뛰어나다는 것을 알지만 질문에 의해 답변이 약하게 지정되기 때문에 데이터 세트는 여전히 도전적입니다.

5.4 번역

로 엔베이스 라인고정 바트튜닝 바트

36.80
36.29
37.96

표 6 : 역 번역 데이터로 보강 된 WMT'16 RO-EN의 기준선 및 BART의 성능 (BLEU). BART는 단일 언어 영어 사전 교육을 사용하여 강력한 역 번역 (BT) 기준을 초과하여 개선합니다.

소스 문서 (약어)바트 요약

연구자들은 피지 해안의 산호초에서 3 가지 유형의 산호를 조사했습니다… 연구자들은 물고기가 풍부 할 때 산호에서 해조류와 해초를 먹어 박테리아에 더 강한 내성 세균 인 Vibrio coralliilyticus를 발견했습니다. 표백. 연구원들은 온난화 온도와 같이 조류가 산호의 화학적 방어력을 덜 효과적으로 만들 수 있으며 물고기가 조류를 제거하여 산호를 보호하고 있다고 제안했습니다. Science 지에 발표 된 연구에 따르면 피지 연안 어업은 지구 온난화의 영향으로부터 산호초를 보호하고 있습니다.
외교관의 아내로서 면역력을 가진 사쿨 라스 (Sacoolas)는 교통 사고에 연루되어있었습니다. 존슨 총리는 왓 포드의 한 병원에서 언론과 대화하면서 사건에 대해 의문을 가졌습니다. "안네 사 쿨라 스가 다시 오기를 바랍니다. 만약 우리가 그것을 해결할 수 없다면 당연히 백악관을 통해 개인적으로 키울 것입니다." 보리스 존슨은 미 외교관 Anne Sacoolas의 백악관 외교 면제 문제를 제기 할 것이라고 밝혔다.
시리아 국영 언론에 따르면, 정부군은 어제 이전 SDF 통제 지역에 배치되기 시작했다. … 10 월 6 일, 도널드 트럼프 미국 대통령과 레셉 타이 cep 에르 도안 터키 대통령이 전화로 연설했습니다. 그런 다음 양국은 시리아 북동쪽에 임박한 침략에 대해 진술했다. 수요일에 터키는 공습으로 지상 공격을 시작한 군사 공세를 시작했다. 시리아 정부군은 터키의이 지역 침공에 대응하여 미국의 지원을받는 시리아 민주 군 (SDF)이 보유한 영토에 들어갔다.
이 획기적인 시간에 42.195 킬로미터 (약 26 마일)의 마라톤을 완주 한 것으로 기록 된 것은 이번이 처음입니다. 그러나 IAAF의 "공개 종족"이 아니기 때문에 공식적으로 제재 된 세계 기록은 아니었다. 그의 시간은 1 시간 59 분 40.2 초였습니다. Kipchoge는 오스트리아 비엔나에서 뛰었습니다. Kipchoge가 2 시간의 장벽을 무너 뜨릴 수 있도록 특별히 고안된 이벤트입니다. 케냐의 러너 Eliud Kipchoge는 2 시간 이내에 마라톤을 완주했습니다.
PG & E는 건조한 조건에서 강풍에 대한 예측에 따라 정전을 계획했다고 밝혔다. 목표는 산불의 위험을 줄이는 것입니다. 내일 최소 한낮 동안 지속될 것으로 예상되는 차단으로 인해 약 8 억 명의 고객이 영향을받을 예정이었습니다. 전원 차단 계획의 일환으로 캘리포니아의 수백만 고객에게 전원이 차단되었습니다.

표 7 : WikiNews 기사의 XSum 조정 BART 모델의 요약 예. 명확성을 위해 소스의 관련 발췌 만 표시됩니다. 요약은 기사 전체의 정보와 사전 지식을 결합합니다.

또한 sennrich2016의 역 번역 데이터로 보강 된 WMT16 Romanian-English의 성능을 평가  했습니다. 우리는 6 계층 변압기 소스 엔코더를 사용하여 루마니아어를 BART가 § 3.4에 도입 된 접근법에 따라 영어로 노이즈 제거 할 수 있다는 표현으로 매핑 합니다. 실험 결과는 표 6에 제시되어있다  . Transformer-large 설정 (기준 행)을 사용 하여 기준선 Transformer 아키텍처 vaswani : 2017  결과를 비교합니다  . 고정 BART 및 조정 된 BART 행에서 모델의 두 단계 성능을 모두 보여줍니다. 각 행에 대해 역변환 데이터로 보강 된 원래 WMT16 루마니아어-영어를 실험합니다. 빔 폭 5와 길이 페널티  . 예비 결과는 우리의 접근 방식이 역 번역 데이터 없이는 효과적이지 않았으며 과적 합을하는 경향이 있음을 보여주었습니다.

6 질적 분석

BART는 기존의 최첨단 기술에 비해 요약 지표가 크게 6 점 향상되었음을 보여줍니다. 자동화 된 메트릭 이상의 BART 성능을 이해하기 위해 세대를 정 성적으로 분석합니다.

 7 은 BART에서 생성 된 요약 예를 보여줍니다. 모델의 훈련 데이터에 기술 된 사건의 가능성을 제거하기 위해 사전 훈련 코퍼스 생성 후 발행 된 WikiNews 기사에서 예제를 가져옵니다. xsum 다음 에, 기사를 요약하기 전에 기사의 첫 문장을 제거하므로, 문서를 쉽게 추출 할 수 없습니다.

놀랍게도, 모델 출력은 유창하고 문법적인 영어입니다. 그러나 입력에서 복사 된 문구가 거의없는 모델 출력도 매우 추상적입니다. 결과는 일반적으로 사실 정확하며 입력 문서 전체의 뒷받침 증거를 배경 지식과 통합합니다 (예 : 이름을 정확하게 완성하거나 PG & E가 캘리포니아에서 운영되고 있음을 유추). 첫 번째 예에서, 물고기가 지구 온난화로부터 산호초를 보호하고 있다고 추론하려면 텍스트의 사소한 추론이 필요합니다. 그러나 과학에 출판 된 작품에 대한 주장은 출처에 의해 뒷받침되지 않습니다.

이 샘플은 BART 프리 트레이닝이 자연어 이해와 생성의 강력한 조합을 배웠 음을 보여줍니다.

7 관련 작업

사전 훈련을위한 초기 방법은 언어 모델을 기반으로했습니다. GPT gpt 는 왼쪽 컨텍스트 만 모델링하므로 일부 작업에는 문제가 있습니다. 엘모 엘모 을 병합하고 마우스 오른쪽 버튼으로 만 표현 만 왼쪽으로하지만, 이러한 기능 사이의 상호 작용 - 기차 사전되지 않습니다. gpt2 는 매우 큰 언어 모델이 감독되지 않은 멀티 태스크 모델로 작동 할 수 있음을 보여주었습니다.

BERT ( bert ) 는 마스크 된 언어 모델링을 도입하여 사전 훈련을 통해 왼쪽과 오른쪽 문맥 단어 간의 상호 작용을 배울 수 있습니다. 최근 작업은 매우 강력한 성능이 더 오래 훈련에 의해 달성 될 수 있음을 보여 주었다 ( 로버타 ) 층에서 매개 변수 매서, ( 알버트 ) , 대신 단어의 스팬 마스킹 ( spanbert을 ) . 자동 회귀 식으로 예측하지 않으므로 생성 작업에 대한 BERT의 효과가 줄어 듭니다.

UniLM ( unilm ) 은 앙상블 마스크를 사용하여 BERT를 미세 조정하며, 일부는 왼쪽 컨텍스트 만 허용합니다. BART와 마찬가지로 UniLM을 생성 및 차별 작업에 모두 사용할 수 있습니다. 차이점은 UniLM 예측은 조건부로 독립적이지만 BART는 자동 회귀 적이라는 것입니다. BART는 디코더가 항상 손상되지 않은 컨텍스트에서 훈련되기 때문에 사전 훈련과 생성 작업 간의 불일치를 줄입니다.

질량 ( 질량 ) 은 아마도 BART와 가장 유사한 모델 일 것입니다. 연속 된 토큰 범위가 마스킹되는 입력 시퀀스는 누락 된 토큰으로 구성된 시퀀스에 매핑됩니다. MASS는 분리 된 토큰 세트가 인코더 및 디코더에 공급되기 때문에 차별적 인 작업에는 덜 효과적입니다.

XL-Net xlnet 은 마스크 된 토큰을 순차 순서대로 자동 회귀 적으로 예측하여 BERT를 확장합니다. 이 목표를 통해 예측은 왼쪽과 오른쪽 컨텍스트 모두에서 조건을 지정할 수 있습니다. 대조적으로, BART 디코더는 프리 트레이닝 중에 왼쪽에서 오른쪽으로 작동하며 생성 중에 설정과 일치합니다.

기계 번역을 개선하기 위해 사전 훈련 된 표현을 사용하여 여러 논문을 살펴 보았습니다. 소스 언어와 대상 언어 ( mass ; xlm ) 에 대한 사전 교육을 통해 가장 큰 개선이 이루어 졌지만 관심있는 모든 언어에 대한 사전 교육이 필요합니다. 다른 연구에 따르면 사전 훈련 된 표현 edunov2019pre를 사용하여 인코더를 향상시킬 수 있지만 디코더의 이득은 더 제한적입니다. BART를 사용하여 기계 번역 디코더를 개선하는 방법을 보여줍니다.

8 결론

손상된 문서를 원본에 매핑하는 방법을 배우는 사전 훈련 방식 인 BART를 소개했습니다. BART는 차별적 인 작업에서 RoBERTa와 유사한 성능을 달성하는 동시에 많은 텍스트 생성 작업에서 새로운 최첨단 결과를 달성합니다. 향후 연구는 사전 훈련을 위해 문서를 손상 시켜서 특정 최종 작업에 맞게 조정할 수있는 새로운 방법을 모색해야합니다.

반응형