The Bayes Classifier


Conditional probability를 이용하여 classification 하는 model을 Bayes classifier라고 합니

다.


여기서 Conditional probability란, predictor vector가 특정 class에 속할 확률을 뜻합니다.

즉, 수학적으로 나타내면 아래와 같습니다.




다시 정리하자면, observed predictor vector 의 class가 에 속할 확률입니다.


예시를 들어보자면,

Class 1과 Class2라는 2가지 response value를 갖는 two-class problem에서

이라면 Class1으로 분류합니다.






위의 그림은 2개의 predictor()를 갖는 two-class problem을 2차원 공간에 나타낸 것입니다.

오렌지색 원과 파란색 원이라는 2가지 class를 갖습니다.


그림에서 보라색 점선은 각 class의 속할 확률이 정확히 50%로 어느 class에도

속하지 않는 점들을 나타냅니다.


Bayes classifier에서 이러한 선을 Bayes decision boundary라고 합니다.


(Decision boundary라는 용어는 Bayes classifier에서만 사용되는 것이 아니라

SVM 등의 여러 model에서도 사용되니 익숙해지도록 합시다!)




Bayes classifier는 Bayes error rate라는 가능한 이론적 최소 오차를 제공하기도 합니다.

Bayes classifier는 항상 이 최대인 class를 선택하므로

에서 error rate는 입니다.


정확한 이해를 위해 한 가지 예시를 들어보겠습니다.


실험을 통해서 어떤 동전을 던졌을 때 앞면과 뒷면이 4:1의 확률로 나타냄을 알아내었습니다.

이때 동전을 한 번 던졌을 때 나오는 면을 예측해보면

앞면이 나올 확률이 더 높기 때문에 Bayes classifier는 무조건 앞면으로 예측합니다.


이때 앞면이 나올 확률이 0.80이므로

error rate는 1 - 0.80 = 0.20입니다.





그리고 the overall Bayes error rate는 아래와 같습니다.







출처 : Gareth James -  'An Introduction to Statistical Learning'