NLP 자연어 처리, Natural Language Processing

부트스트랩, Bootstrap in ML

$choice 2021. 2. 17. 11:49

Bootstrap : (부츠 뒤의) '가죽 손잡이', 혹은 (비유적으로) '혼자의 힘'을 뜻한다고 합니다. 부츠를 신을 때 손잡이를 이용하면 다른 사람의 힘을 빌리지 않고 신을 수 있듯이 Bootstrap sampling이란 비용과 시간이 많이 드는 데이터 수집을 스스로 해결할 수 있는 샘플링 방법이라고 간단히 말할 수 있다고 합니다.

[출처: www.statisticshowto.com/bootstrap-sample]/]

 

통계학 - Bootstrap

 

통계학에서는 "Bootstrap"이란 용어를 사용합니다. 부트스트랩은 무작위 표본 추출에 의존하는 어떤 시험이나 계측이라고 설명됩니다. 표본 추정치들의 (편향, 분포, 신뢰 구간, 오차 예측 또는 기타 추정치들로 정의 되는) 정확도를 할당할 수 있도록 합니다.

 

따라서 확률변수의 정확한 분포를 모르는 경우 측정된 통계치의 신뢰도를 가늠할 때 bootstrap을 이용합니다. 

측정된 N개의 데이터 중에서 M개를 뽑고, 평균을 여러번 구합니다. 그렇게 하면 평균의 분포를 알 수 있고, 이로부터 Sample mean을 구할 수 있습니다.

머신러닝 - Bootstrap, Bagging, Boosting, Ensemble

 

머신러닝에는 Bootstrap은 원래의 데이터 셋으로부터 랜덤 샘플링을 통해 학습데이터(Training Data)를 늘리는 방법입니다. 데이터 양을 늘릴 수 있고, 분포를 고르게 만들 수 있는 효과가 있습니다.

 

그리고 Bootstrap을 이용하면 Ensemble을 사용할 수 있습니다.

 

Ensemble은 Bagging과 Boosting 2가지 방식이 존재합니다.

 

Bagging은 Bootstrap으로 조금씩 서로 다른 훈련 데이터를 생성하고, 병렬로 처리하여 결과를 결합하는 방법입니다.

Boosting은 잘못 분류된 객체들에 집중하여 새로운 분류 규칙을 생성하는 단계를 반복하는 순차적 학습 알고리즘입니다.

 

 

 

 

반응형