Bootstrap은 추정이나 통계 학습 방식을 사용할 때 관련된 불확실성(uncertainty)을 측정해주는

매우 유용하고 널리 적용할 수 있는 방법입니다.


여기서 불확실성(uncertainty)의 간단한 예로는

선형 회귀에서 모선형 회귀식의 계수의 표준 편차가 있습니다.




Bootstrap의 이해를 위해 간단한 예시를 들어보도록 하겠습니다.


X와 Y를 결과로 생산하는 두 가지 금융 재산에 일정한 양의 돈을 투자하는 경우를 생각해봅시다.


이때 X에 투자한 돈을 라 하면 Y에 투자한 돈은 입니다.

목표는 투자의 위험성, 즉 variance를 최소화하는 를 찾는 것입니다.


즉, 를 최소화하는 것이 목표이고

이 조건을 만족하는 는 아래와 같습니다.


이때 입니다.


하지만 실제로는 이 값을 알 수 없으므로 추정값인 를 통해 계산한 을 이용합니다.




금융 재산에 투자하는 예시로 돌아가 을 구하기 위해 한 번에 100개의 데이터를 사용하는

simulation을 1000번 시행하였다고 합시다.


Simulation 결과를 비교하기 위해 로 설정하면

입니다.



번째에 시행에서 에 대해 추정한 값을 라 하면 는 아래와 같습니다.



이 값은 와 매우 비슷합니다.


그리고 추정한 값들의 표준편차를 구하면 아래와 같습니다.





따라서 대략적으로 말한다면

을 와 평균적으로 약 0.08만큼 차이가 나도록 예상한 것입니다.








하지만, 실제 상황에서 위의 예시처럼 모집단에서 새로운 샘플을 추출하는 것은 불가능합니다.

하지만, bootstrap은 컴퓨터를 통해 새로운 샘플을 만드는 것을 가능하게 해줍니다.





위의 그림은 Original Data에서 bootstrap에 사용할 샘플을 만드는 과정을 나타낸 그림입니다.


Data set에서 임의로 n개 데이터를 골라서 bootstrap data set을 만들며

또한 이 sampling은 복원추출이기 때문에 똑같은 bootstrap data set이 만들어질 수도 있습니다.




위에서 정리했던 방법을 이 예시에 적용하면 의 표준편차는 아래와 같습니다.




위의 그림에서 왼쪽은 실제 모집단으로부터 추출한 1000개의 simulated data를 통해 추정한 에 대한 histogram이고

오른쪽은 하나의 dadta set으로부터 1,000개의 bootstrap samples를 만들어 추정한 에 대한 histogram입니다.


그림을 통해 알 수 있듯이 두 histogram은 매우 비슷하며

이러한 결과를 통해 bootstrap은 좋은 성능을 보임을 알 수 있습니다.