Optimizer : RAdam - Rectified Adam

pdf : https://arxiv.org/abs/1908.03265
About RAdam : https://github.com/LiyuanLucasLiu/RAdam

위의 사이트는 RAdam을 다운로드 할 수 있고, 추가 내용 설명이 있습니다.

Adam

가중치 옵티마이저 Adam은 adaptive learning rate를 하는 특징을 가집니다. 이 adaptive learning rate를 식으로 나타내면 아래와 같습니다.

지금까지의 상대적인 업데이트 양에 따라 Step size를 조정하는 것입니다.

Adam의 한계점

Bad local optima convergence problem

- 학습 초기에 샘플이 부족하여 adaptive learning rate의 분산이 매우 커지고 이에 따라 최적이 아닌 local optima에 일찍 도달하여 학습이 일어나지 않는 현상입니다. 이러한 한계점은 adaptive learning rate를 사용하는 다른 옵티마이저도 같은 한계에 부딪힙니다.

그림 과 같이 학습 초기를 조금만 지나면 Gradients 값이 매우매우 작은 값으로 변하게 됩니다. 수학적 증명으로서도 학습 초기 adaptive learning rate의 분산을 확인 할 수 있습니다.

Gradient가 Normal distribution을 따른다는 것과, adaptive learning rate term이 Scaled inverse chi square distribution을 따른다는 것을 이용하면 위와 같은 식을 세울 수 있다고 합니다. 여기서

이러한 convergence problem을 해결하기 위해 지금까지 각광받는 방법입니다. 말 그대로 학습 초기에 warmup이 필요하다는 것입니다. 예를들어 learning rate를 0.01로 지정한다면 처음 몇 Step 동안은 0.001, 0.002 ... 0.01까지 선형적으로 조금씩 증가하는 learning rate를 사용합니다. 샘플이 적은 초기에 아주 작은 learning rate를 이용하여 bad local optima로의 학습이 일어나지 않게 만드는 것이었습니다.

자세한 수식은 논문 : https://arxiv.org/pdf/1908.03265.pdf에서 확인하실 수 있습니다.

결과

RAdam은 Adam의 수식에 rectification을 곱해줌으로써 학습 초기에 일어날 수 있는 bad local optima problem을 해결하고, 학습 안정성을 높였다고 할 수 있습니다.

원본내용 : https://zzaebok.github.io/deep_learning/RAdam/

'Study' 카테고리의 다른 글

NLP(자연어처리) - Language Model (언어 모델) (0)	2020.07.07
Markov Process (0)	2020.04.07
Greedy Search (0)	2020.03.18
자연어 언어 모델 (0)	2020.03.12
자연어 처리 (0)	2020.03.11

choice

Optimizer : RAdam - Rectified Adam

'Study' 카테고리의 다른 글

티스토리툴바

Optimizer : RAdam - Rectified Adam

'Study' 카테고리의 다른 글

'Study' Related Articles

티스토리툴바