Polynomial Regression의 notorious tail behavior를 해결한 방법이 Step Functions입니다.


이 글의 후반부에도 설명하겠지만 step functions이 polynomial regression의 문제를

극복했다고 해서 완벽한 방법은 아니며 여전히 한계점을 갖고 있습니다.

하지만, 매우 심플한 방법이기 때문에 여러 분야에서 여전히 사용되고 있습니다.




Step Functions은 연속형 변수(continuous variable)를 순서가 있는 범주형 변수(ordered categorical variable)로 변환하는 방법입니다.


좀 더 자세하게 설명하자면,

X의 영역에 경계가 되는 점(cutpoints) 를 만들어

아래와 같은 개의 새로운 변수를 만드는 것입니다.



※ 는 괄호 안의 조건식이 True이면 1을, False이면 0을 반환하는 지시함수(indicator function)

Dummy variable이라 불리기도 한다.


이때, X는 개의 구간 중 한 구간에는 반드시 속하므로

모든 X에 대하여 이 성립합니다.



그리고 개의 구간을 predictors로 하는 선형 모델은 아래와 같습니다.




또한 Logistic Regression Model은 아래와 같습니다.





위의 그림은 Step Functions을 이용하여 wage 데이터셋에 대하여 모델을 적합한 결과를 나타낸 plot입니다.

마찬가지로 오른쪽 그림은 logistic regression의 결과를 나타낸 것이며

점선은 95% 신뢰구간에 해당합니다.





Step Functions은 piecewise-constant functions이기 때문에

손실되는 정보가 발생(miss the action)할 수 있다는 점입니다.


위의 그림을 통해 이해해보자면

왼쪽 그림에서 첫 번째 구간은 wage가 증가하는 경향을 보여주지 못합니다.

'An Introduction to Statistical Learning > 7. Moving Beyond Linearity' 카테고리의 다른 글

Smoothing Splines  (0) 2018.05.07
Regression Splines  (0) 2018.05.06
Polynomial Regression  (0) 2018.05.02
The Methods to Move Beyond Linearity  (0) 2018.05.02