3장에서 다룬 'Linear regression model'은 response variable Y가 quantitative한 regression에 해당하였지만

많은 상황에서 종속 변수가 qualtitative하기도 합니다.


이와 같이 qualitative response를 예측하는 것을 분류(Classification)라고 합니다.

4장에서는 가장 널리 사용되는 classifier인

logistic regression, linear discriminant analysis, 그리고 K-nearest neighbors를 다룹니다.


이후 7장에서는 generalized additive models, 8장에서는 trees, random forests, and boosting,

그리고 9장에서는 support vector machines를 다룹니다.





Response variable이 qualtitative할 때 Linear regression이 적합한 방법이 아닌 이유를 살펴보겠습니다.


Quantitative response variable Y가 3개의 category를 갖고 있는 경우 아래와 같이 나태낼 수 있습니다.



이러한 경우, predictors를 이용하여 Y를 예측하는 Linear regression model에 least squares를 사용할 수 있습니다.


하지만, 이러한 방법은 response에 순서(ordering)이 있다는 것을 의미합니다.

즉,  B가 A와 C의 사이에 위치합니다.


또한 A와 B 사이의 차이가 B와 C 사이의 차이와 동일하다는 것을 의미합니다.


실제 상황에서는 위의 두 가지 조건을 반드신 만족할 필요도 없으며

정확히 맞아떨어지는 경우는 거의 존재하지 않습니다.



또한 순서를 바꾸어



로 예측을 할 경우,


전혀 다른 linear model이 만들어져 결과적으로 예측 결과가 달라지게 됩니다.



Response의 category가 3개가 아닌 2개일 때는

위에서 언급한 여러가지 문제들이 발생하지 않기는 하지만 여전히 문제점을 갖고 있습니다.


가장 치명적인 문제점은 예측한 확률이 구간 [0, 1]을 벗어날 수 있기 때문입니다.




이러한 이유들로 인해서 qualitative response에 대해서 Linear Regression을 적용하는 것을 적절하지 않습니다.

'An Introduction to Statistical Learning > 4. Classification' 카테고리의 다른 글

Logistic Regression  (0) 2018.04.06