pdf : https://arxiv.org/abs/1908.03265
About RAdam : https://github.com/LiyuanLucasLiu/RAdam
위의 사이트는 RAdam을 다운로드 할 수 있고, 추가 내용 설명이 있습니다.
Adam
가중치 옵티마이저 Adam은 adaptive learning rate를 하는 특징을 가집니다. 이 adaptive learning rate를 식으로 나타내면 아래와 같습니다.
지금까지의 상대적인 업데이트 양에 따라 Step size를 조정하는 것입니다.
Adam의 한계점
- Bad local optima convergence problem
- 학습 초기에 샘플이 부족하여 adaptive learning rate의 분산이 매우 커지고 이에 따라 최적이 아닌 local optima에 일찍 도달하여 학습이 일어나지 않는 현상입니다. 이러한 한계점은 adaptive learning rate를 사용하는 다른 옵티마이저도 같은 한계에 부딪힙니다.
그림 과 같이 학습 초기를 조금만 지나면 Gradients 값이 매우매우 작은 값으로 변하게 됩니다. 수학적 증명으로서도 학습 초기 adaptive learning rate의 분산을 확인 할 수 있습니다.
Gradient가 Normal distribution을 따른다는 것과, adaptive learning rate term이 Scaled inverse chi square distribution을 따른다는 것을 이용하면 위와 같은 식을 세울 수 있다고 합니다. 여기서
자세한 수식은 논문 : https://arxiv.org/pdf/1908.03265.pdf에서 확인하실 수 있습니다.
결과
RAdam은 Adam의 수식에 rectification을 곱해줌으로써 학습 초기에 일어날 수 있는 bad local optima problem을 해결하고, 학습 안정성을 높였다고 할 수 있습니다.
원본내용 : https://zzaebok.github.io/deep_learning/RAdam/
'Study' 카테고리의 다른 글
NLP(자연어처리) - Language Model (언어 모델) (0) | 2020.07.07 |
---|---|
Markov Process (0) | 2020.04.07 |
Greedy Search (0) | 2020.03.18 |
자연어 언어 모델 (0) | 2020.03.12 |
자연어 처리 (0) | 2020.03.11 |