단순 선형 회귀(Simple Linear Regression)은 한가지 predictor variable을 통해 response를 예측하는 것에는 유용하지만

실제 상황에서는 보통 한 개 이상의 predictor를 가지므로 단순 선형 회귀를 적용하는 것에는 문제가 있습니다..


여러 개의 predictors를 직접적으로 다룰 수 있도록

단순 선형 회귀 모델을 확장시키는 방법, 즉 다중 선형 회귀(Multiple Linear Regression)을 사용합니다.


이는 단순히 각각의 predictor에 개별적인 기울기 계수(slope coefficient)를 부여하면 가능합니다.


p개의 predictor가 있을 경우 다중 선형 회귀 모델은 아래와 같은 형태를 가집니다.




따라서 Multiple Linear Regression에서 RSS는 다음과 같습니다.




다중 선형 회귀에서도 단순 선형 회귀에서와 마찬가지로

least squares regression을 이용하여 RSS를 가장 작게 하는 를 찾을 수 있지만

너무 복잡하므로 수식을 통해 나타내지는 않도록 하겠습니다.




다중 선형 회귀는 Y에 거의 영향을 주지 않는 X가 Y에 영향을 준다고 판단할 가능성을 줄일 수 있습니다.


예를 들어 상어의 공격아이스크림 판매량 사이의 회귀 분석 결과

양의 관계를 가지는 것으로 나타났습니다.


하지만 이런 결과를 바탕으로 상어의 공격을 줄이기 위해 해변에서 아이스크림 판매를

금지하자고 주장할 수는 없습니다.


사실 높은 온도가 많은 사람들로 하여금 해변에 모이게끔 하였고,

그 결과 아이스크림 판매량이 늘어났으며 더 많은 상어의 공격이 있었던 것입니다.


이러한 경우 높은 온도와 상어의 공격을 predictor로 한 다중 선형 회귀 결과

상어의 공격은 아이스크림 판매량에 영향을 미치지 않는 것을 알 수 있습니다.



결국 다중 선형 회귀를 통해서

단순 선형 회귀 결과 X와 Y 사이의 상관관계가 있는 것처럼 보인 것이

사실은 predictor 사이의 상관관계가 있었던 것임을 알 수 있는 것입니다.







다중 선형 회귀(Multiple Linear Regression)을 할 때 몇 가지 중요한 의문점이 있습니다.




< 1. Response와 Predictors 사이의 상관관계가 있는가? >


단순 선형 회귀에서는 가 0인지 아닌지에 따라 response와 predictor 사이에 관계가 있는지 없는지를 간단하게 알 수 있었습니다.


다중 선형 회귀(Multiple Linear Regression)에서는 모든 기울기 계수(Slope Coefficients)가 0인지 아닌지를 확인해야 합니다.


이를 가설 검정을 통해 확인해보면,


 귀무 가설과 대립 가설은 각각 아래와 같습니다.





이 가설 검정은 F-통계량(F-statistics)을 통해서 할 수 있습니다.




만약 추정을 제대로 하였다면



를 만족합니다.


또한 귀무가설 가 참이라면 (response와 predictors 사이의 관계가 없다면) 


이 성립합니다.


즉, Response와 predictors 사이에 관계가 없을 경우 F-통계량은 1에 가까운 값을 가집니다.



반면에 대립가설 가 참이라면 (response와 적어도 하나의 predictor 사이의 관계가 있다면)

 이므로

F통계량은 1보다 큰 값을 가집니다.





이때 F-통계량이 어느정도 커야 귀무가설을 기각할 수 있을지가 문제입니다.


일반적으로, n이 크다면 F-통계량이 1보다 조금만 더 커도 귀무가설을 기각하고

반면에 n이 작다면 조금 더 큰 F-통계량을 가져도 귀무가설이 옳다고 할 수 있습니다.





< 2. 중요한 변수 선택하기 >


여러개의 변수가 모두 response에 영향을 미칠 수도 있지만

일반적으로 전체 중 일부의 predictors만 영향을 주는 경우가 많습니다.


이렇게 중요한 변수를 선택하하는 것을 변수 선택(Variable Selection)이라고 합니다.



이상적으로는 predcitors의 모든 부분 집합을 이용하여 여러 가지의 다양한 모델을 구현한 후

모델의 성능 비교를 통해 변수 선택을 할 수 있습니다.


이때 모델의 성능을 판단하는 방법으로는

등이 있습니다.


이들 각각의 방법은 6장에서 자세하게 다룹니다.


그러나, p개의 variables이 있을 경우 개의 모델을 비교해야하므로

어느 정도 큰 값의 p에 대해서는 모든 모델을 비교하는 것이 불가능해집니다.




따라서 모든 모델을 구현한 후 비교하는 방법 대신에 주로 3가지 방법을 사용합니다.


1. Forward selection : 모든 predictors가 의미가 없다고 가정한 null model에서 출발하여

각각의 variable을 추가해주며 가장 작은 RSS를 갖는 모델 찾기


2. Backward selection : 모든 predcitors가 의미가 있다고 가정한 모델에서 시작한 후

p-value가 큰 변수(가장 의미가 없는 변수)부터 하나씩 삭제해나가며

일정 수준의 경계 이상의 p-value에 대해서 진행

( p > n일 경우 사용할 수 없다.)


3. Mixed selection : Forward selection처럼 하나하나씩 변수를 추가하되

만일 일정 수준 이상의 p-value를 갖는 변수가 생길 경우 그 변수를 삭제





< 3. 모델 적합 >


Numerical response에 대한 모델 적합의 척도에는 과 RSE가 있습니다.



우선 을 살펴보면,

단순 선형 회귀(Simple Linear Regression)에서

은 response와 variable 사이의 correlation의 제곱과 같았습니다.

(참고 : http://cdm98.tistory.com/9)



다중 선형 회귀(Multiple Linear Regression)에서는

은 이 아니라 과 같습니다.


즉, 은 response와 적합된 선형 모델(fitted linear model) 사이의 상관관계의 제곱과 같습니다.





03 - 1. Simple Linear Regression에서도 언급했듯이

이 1에 가까울수록 response의 분산(variance)의 많은 부분을 설명합니다.


이때, 다중 선형 회귀의 경우

더 많은 변수를 가질수록 이 커집니다.

(response와 상관관계가 낮은 변수여서 마찬가지입니다.)


이 커질수록 모델이 데이터에 잘 적합되는 것은 맞지만

과도하게 클 경우 과적합(Overfitting)문제가 발생하기도 합니다.






이번에는 RSE를 살펴보도록 하겠습니다.

RSE는 response가 실제 회귀선으로부터 떨어진 정도를 뜻합니다.


즉, RSE가 작을수록 좋은 모델이라는 뜻입니다.



이때 RSE는 아래와 같습니다.



(이때 p는 predictor의 개수입니다. 단순 선형 회귀에서는 predictor이 1개이므로 분모가 n-2입니다.)


위의 식을 통해서 알 수 있듯이

predictor의 개수가 많아질수록 RSE가 커집니다.





결론적으로 변수의 개수가 증가할수록 은 커지지만 RSE는 커지므로

Underfitting 혹은 Overfitting 문제가 발생하지 않도록 적절한 개수의 변수를 선택하는 것이 중요합니다.






< 4. 예측 >