이전까지는 모든 변수가 quantitative(numerical)한 선형 회귀 모델만 다루었지만,

실제로는 변수가 qualtitative(categorical)한 경우도 존재합니다.


예를 들어, 성별과 관련된 변수의 경우 남자와 여자라는 2가지 경우만 존재하므로

아래와 같은 형태로 나타낼 수 있습니다.



이러한 경우 선형 회귀 모델은 아래와 같습니다.




따라서 이때 를 남성에 대한 평균값으로,


을 여성에 대한 평균값으로,

그리고 을 남성와 여성 사이 차이의 평균으로 해석할 수 있습니다.






일반화하여 나타낸다면 category가 p개일 경우 선형 회귀 모델은 아래와 같이 나타낼 수 있습니다.









지금까지 다룬 선형 회귀 모델은 현실에서 위배될 만한 제한적인 가정을 필요로 합니다.

가장 중요한 두 가지 가정은 predictors와 response 사이의 관계가 additive하고 linear하다는 것입니다.


The additive assumption :  predictor 가 response에 미치는 영향은

다른 predictors의 값에 독립적이다.


The linear assumption 의 값에 상관없이 의 한 단위 변화하면 response

일정하게 변한다.




이러한 가정들을 만족시키려면 상황이 제한적이므로

선형 모델을 확장(Extensions of the Linear Model)시키는 방법을 통해 한계를 해결합니다.






우선 the Additive assumption부터 제거해보록 하겠습니다.


 우리가 지금까지 다중 선형 회귀 모델을 다룰 때

한 변수의 변화가 다른 변수에 영향을 미치지 않는다고 가정하였습니다.


하지만 실제 상황에서는 변수의 변화가 다른 변수에 영향을 주는 경우가 많습니다.


두 변수가 양의 상관관계를 가지는 경우를

흔히 시너지 효과(synergy effect)라고 하고

통계학에서는 상호작용 효과(interaction effect)라 합니다.




상호작용 효과(interaction effect)를 모델에 적용해보도록 하겠습니다.


the Additive assumption이 적용된 모델은 아래와 같았습니다.



이 모델에 상호작용 효과를 적용시키는 방법은 세 번째 predictor, interaction term을 추가하는 것입니다.

이때, Interaction term은 과 의 곱입니다.



이때 이므로

이 Y에 주는 영향은 일정하지 않으며

를 조정해주는 것이  이 Y에 주는 영향을 달라지게 합니다.




Interaction term을 추가해준 모델이 그렇지 않은 모델보다 훨씬 좋은 성능을 보입니다.



어떤 상황의 경우 interaction term의 중요도가 매우 높고

각각의 변수(,)의 중요도는 높지 않은 경우가 있습니다.

[과 의 p-value가 매우 큰 경우]


그러나 이러한 경우에도 모델에

과 를 포함시켜주어야 합니다.


이유를 간략하게 정리하자면

는 과 와 상관관계가 있으므로

과 를 포함시키지 않는 것은 상호작용(interaction)이라는 의미를 변하게 합니다.







Predictor가 quantitative 값이 아닌 qualitative 값일 때에도

interaction term을 추가해주면 모델의 성능이 높아집니다.


Income (quantitative)와 student(qualitative) 변수를 이용하여 balance를 예측하는 예시를 고려해봅시다.


이전까지 다룬 내용을 바탕으로 (interaction term이 없는) 모델은 아래와 같습니다.



그리고 이 모델을 통해 그래프를 그려보면 아래와 같습니다.





그림을 통해서 알 수 있듯이 student인지 아닌지는

Income의 변화에 따른 Balance의 변화 정도에 영향을 미치지 않음을 알 수 있습니다.

[ 즉, the Additive assumption이 적용된 모델입니다. ]





하지만, 실제 상황에서는 student인지 아닌지 여부에 따라

Income이 Balance에 주는 영향이 달라집니다.


따라서 이러한 이유를 반영하기 위해 interaction term을 추가한 모델은 아래와 같습니다.



그리고 이 모델을 통해 그래프를 그려보면 아래와 같습니다.



그래프를 통해 알 수 있듯이 Interaction term이 추가된 모델에서는

학생이 아닐 때 Income이 Balance에 주는 영향이 더 크다는 것을 알 수 있습니다.










이번에는 the Linear Assumption을 제거해보록 하겠습니다.


선형 모델이 비선형 관계를 다룰 수 있도록 확장시키는 가장 간단한 방법은

다항 회귀(polynomial regression)입니다.





위의 그림은 predictor가 마력(Horsepower), response가 mpg (miles per gallon)인 data를 나타낸 것입니다.


기존에 다루었던 방법을 통해서 선형 모델을 구하면 오렌지색 선과 같습니다.


하지만 실제 데이터를 보면 직선의 형태가 아니라 아래로 볼록한 휘어진 곡선임을 알 수 있습니다

이는 이차식의 형태와 비슷하므로 변형된 predictor을 추가해주면 아래와 같이 만들 수 있습니다.





위의 식이 여전히 선형 모델인 이유는

인 다중 선형 회귀 모델이기 때문입니다.


이 모델을 나타낸 그래프는 그림에서 파란색 선입니다.


그림을 통해 알 수 있듯이 단순한 선형 모델보다

다항 회귀(polynomial regression) 모델이 더욱 data에 잘 들어 맞음을 알 수 있습니다.





위의 그림에서 초록색 선은 horsepower의 제곱이 아니라 다섯제곱을 해준 변수를 모델에 더해준 것입니다.

그림을 통해서 알 수 있듯이 선이 과도하게 구불구불한 것을 알 수 있습니다.


이를 통해서 추가적인 변수를 더해준다고 해서 반드시 더 좋은 모델이 되는 것은 아님을 알 수 있습니다.











데이터 셋을 선형 회귀 모델에 적합시킬 때 주로 발생하는 문제점들은 다음과 같습니다.


1. response-predictor 관계의 비선형성

2. error terms의 상관관계

3. error terms의 일정하지 않는 분산

4. 아웃라이어

5. High-leverage points

6. 공선성 (Collinearity)



선형 모델은 이 책의 핵심적인 부분이 아니므로,

이러한 문제점들에 대한 간단한 요약만 하고 넘어가도록 하겠습니다.





1. response-predictor 관계의 비선형성 >