The Trade-Off Between Prediction Accuracy and Model

Interpretability




위의 그림은 각 Model의 flexibility와 interpretability 사이의 tradeoff를 나타낸 것입니다.

그림에서 알 수 있듯이 flexibility가 증가하면 interpretability가 감소함을 알 수 있습니다.


예시를 통해 자세히 이해해보도록 하겠습니다.


왼쪽의 그림은 간단한 linear model, 오른쪽 그림은 복잡한 형태인 hi-dimensional model을 나타낸 것입니다.


linear model과 hi-dimensional model을 비교하면 그림을 통해 직관적으로 알 수 있듯이

linear model은 flexibility가 낮지만 각 변수 와 사이의 관계를 이해하는 것이 쉽고

boosting methods와 같은 hi-dimensional model은 flexibility가 높지만 개별 predictor가 response와 어떻게 연관되어 있는지는 이해하기 어렵습니다.







Measuring the Quality of Fit


Regression의 경우 예측값이 실제값에 얼마나 근접했는 지를 측정하기 위한 척도로

흔히 mean squared error (MSE)를 사용합니다.

MSE를 수학적으로 나타내면 아래와 같습니다.



식으로부터 알 수 있듯이, MSE는 예측한 response가 실제 response에 가까울 수록 작아집니다.


목표는 train data set에 대한 MSE를 줄이는 것이 아니라

test data set에 대한 MSE를 줄이는 것입니다.


왜냐하면 현재 주어진 train data set에 대해서 아무리 정확하게 예측을 하였다 하더라도

궁극적인 목표인 test data set에 대한 예측이 형편없다면 아무런 쓸모가 없는 model이 되기 때문입니다.





위의 그림에서 왼쪽 그림을 보면 노란색 < 하늘색 < 초록색 순으로 Flexibility가 증가함을 알 수 있습니다.

그리고 Flexibility가 증가할수록 각 train data에 대해 예측값이 거의 정확하게 맞아 떨어짐을 알 수 있습니다.


동일한 상황에서 오른쪽 그림은 각 색깔 별 training MSE (회색)와 test MSE (빨간색)을 나타낸 것입니다.


가장 간단한 형태인, 즉 flexibility가 가장 작은 노란색 model의 경우 training MSE, test MSE 모두 큰 것을 알 수 있습니다.

이렇게 예측한 모델이 training data set에 대해서도 잘 예측해내지 못하는 상황을 'Underfitting'되었다고 합니다.


반면 flexibility가 높은 초록색 model의 경우 training MSE은 작지만 test MSE는 큰 것을 알 수 있습니다.

이와 같이 model이 traning data set에 대해서는 좋은 성능을 보이지만

test data set에 대해서는 좋지 못한 성능을 보이는 경우를 'Overfitting'되었다고 합니다.


정리하자면 위의 예시를 통해 알 수 있듯이 training MSE가 작다고 test MSE도 반드시 작은 것은 아님을 알 수 있습니다.

따라서 Underfitting 상황과 Overfitting 상황의 중간에 위치하는 적절한 model을 구하는 것이 중요합니다.


이에 대한 자세한 내용은 아래의 The Bias-Variance Trade-Off에서 다루도록 하겠습니다.



The Bias-Variance Trade-Off


test data 에 대한 MSE는 3가지 성분으로 나눌 수 있습니다.

그 3가지 성분은 의 variance, 의 squared bias, 그리고 error term 의 variance 입니다.

즉, expected test error를 수학적으로 나타내면 아래와 같습니다.



일단 Variance와 bias가 무엇인지를 정확하게 정리하고 넘어가도록 하겠습니다.


Variance는 다른 training data set을 사용하였을 때 이 변하는 정도입니다.

일반적으로, flexible한 method일수록 높은 variance를 갖습니다.




아까 underfitting과 overfitting을 설명할 때 사용하였던 그림을 통해 이해해보도록 하겠습니다.

초록색 선은 flexibility가 매우 높아 각 training data set을 모두 이은 선과 거의 유사한 형태를 갖고 있습니다.

이때 training data set 중 임의로 한 개의 data point를 변화시킨다면 초록색 선은 크게 변하게 됩니다.

이와 달리 flexibility가 낮은 노란색 선의 경우 한 개의 data point를 조작하여도 linear model의 위 아래 위치만 살짝 이동할 뿐

이전과 큰 차이가 없을 것을 예상할 수 있습니다.



반면, Bias는 과 의 차이를 뜻합니다.

따라서 초록색 선의 경우 노란색 선의 경우보다 작은 bias를 가집니다.

즉, 일반적으로 flexible한 metohd일수록 낮은 bias를 갖습니다.





위의 그림은 위의 예시와 동일한 상황에서 flexibility에 따른 MSE, variance, 그리고 bias의 변화를 나타낸 것입니다.

눈치가 빠른 분들은 이미 알아채셨겠지만 빨간색 선이 MSE, 주황색 선이 Variance, 그리고 하늘색 선이 bias입니다.


Variance와 bias가 적절한 균형을 이루도록 flexibility를 조정해주며 가장 작은 MSE를 갖게 하는 것이 목표입니다.

5장에서는 traning data를 이용하여 test MSE를 예측하는 방법인 cross validation을 다룹니다.




The Classification Setting


지금까지 regression setting에서의 accuracy만 다루었으므로 이번에는 classification setting에서의 accuracy를 정리해봅시다.

Classification setting에서 error rate는 다음과 같습니다.



여기서 는 를 이용하여 예측한 i 번째 observation의 class입니다.


그리고 은 일 때 1이고 일 때 0입니다.

즉, 은 예측한 class가 실제 class와 얼마나 일치했는지를 나타냅니다.

따라서 model의 accuracy가 높을수록 error rate는 작아집니다.





출처 : Gareth James -  'An Introduction to Statistical Learning'