Predictor와 response 사이의 관계가 비선형적인 경우 선형 회귀를 연장시키는 일반적인 방법은

the standard linear model



를 polynomial function


로 대체하는 것입니다.


이러한 방법을 polynomial regression이라 합니다.



여기서 놓치지 말아야할 점은 polynomial regression 또한 여전히 linear regression라는 점입니다.


위의 식에서 를 각각 로 치환하면

이전에 다루었던 multiple linear regression이기 때문입니다.



Polynomial regression의 계수(coefficients)는 least squares linear regression을 통해 쉽게 추정될 수 있습니다.


그리고 polynomial regression의 최고차수 d는 일반적으로 3 또는 4 보다 작은 수를 사용합니다.

그 이유는 d가 과도하게 큰 값을 가질 경우 과도하게 flexible하거나 매우 이상한 형태를 가질 수도 있기 때문입니다.



위의 그림은 age에 대한 wage를 나타낸 plot입니다.

[그림에서 점선은 95% 신뢰구간을 나타낸 것입니다.]


여기서 주목할 점은 regression 식의 coefficients가 각각 어떤 값인지가 아니라

전반적인 함수가 어떤 식으로 생겼는지를 확인하는 것입니다.


왼쪽 그림의 점들은 데이터들을 나타낸 것인데 그림을 통해

high earners 그룹과 low earners 그룹으로 나눌 수 있음을 확인할 수 있습니다.


그렇다면 wage를 두 가지 그룹으로 나누어 binary variable로 취급할 수 있습니다.

따라서 logistic regression을 적용하면 아래와 같이 모델을 적합시킬 수 있습니다.




Logistic regression의 결과를 나타낸 것이 오른쪽 그림입니다.






Polynomial Regression이 갖고 있는 문제점으로 notorious tail behavior가 있습니다.

Notorious tail behavior란, X variable의 경계(양쪽 끝부분)에서 polynomial 곡선이 과도하게 flexible할 수 있다는 것입니다.


위의 그림에서도 이를 확인할 수 있습니다.

Age > 70 인 영역에서는 신뢰구간의 범위가 과도하게 넓어지고 있습니다.


이는 모델의 성능이 좋지 못하다는 뜻이며

결국 polynomial regression은 X variable의 tail 부분에서 문제가 발생한다는 것을 알 수 있습니다.



'An Introduction to Statistical Learning > 7. Moving Beyond Linearity' 카테고리의 다른 글

Smoothing Splines  (0) 2018.05.07
Regression Splines  (0) 2018.05.06
Step Functions  (0) 2018.05.02
The Methods to Move Beyond Linearity  (0) 2018.05.02