3장에서는 선형 회귀(Linear Regression)를 다룹니다.


선형 회귀(Linear Regression)는 이 책의 후반부에서 다루는 Modern Statistical Learning 방법들에 비해서

성능이 떨어진다고 생각할 수 있지만 선형 회귀(Linear Regression)는 여전히 유용하며 널리 사용되는 방법입니다.


또한 화려한 Statistical Learning 방법들이 선형 회귀(Linear Regression)의 연장선상에 있기 때문에

선형 회귀(Linear Regression)에 대한 깊이 있는 이해는 다른 모델을 공부하는 것에도 도움이 됩니다.




선형 회귀는 한 개의 predictor variable X을 통해 quantitative(numerical) response Y를 예측하는 모델입니다.


즉, X와 Y 사이에 거의 선형적인 관계가 있다고 가정하고

이 관계를 수학적으로 나타내면 다음과 같습니다.



이 식에서 와 은 각각 '절편(intercept)'과 '기울기(slope)'를 나타냅니다.

그리고 와 을 모델의 '계수(coefficient)' 혹은 '매개변수(parameter)'라 부릅니다.




실제 상황에서 와 를 알지 못합니다.

따라서 주어진 data set을 잘 만족시키는 와 을 찾는 것이 목표입니다.


다시 말하자면 모든 data points에 대해서 가능한 한 가장 가까이에 있는 선을 찾아야 합니다.


근접도(closeness)를 측정하는 여러가지 방법이 있지만,

가장 흔히 사용되는 방법은 'the least squares criterion'을 최소화하는 것 입니다.


다른 여러가지 방법은 6장에서 다룹니다.





 를 X의 번째 값을 이용하여 예측한 Y값이라고 하면

는 번째 잔차(residual)를 나타냅니다.

(잔차에 대해서는 http://cdm98.tistory.com/3 에 더욱 자세하게 설명되어 있습니다.)


따라서 the residual sum of squares(RSS)를 아래와 같이 정의내릴 수 있습니다.



이때 RSS를 3차원으로 나타내면 다음과 같습니다.



The least squares approach의 핵심은 RSS를 최소화하는 와 , 즉 그림에서 빨간 점을 찾는 것 입니다.


Calculus에 의해서 RSS를 최소화하는 와 을 구하면 아래와 같습니다.






이때 로 모든 값의 평균을 뜻합니다.



(계산 과정은 https://www.youtube.com/watch?v=6OvhLPS7rj4의 영상을 참고하시길 바랍니다.)







위의 그림에서 빨간색 선은 모집단 회귀 직선(Population Regression Line)으로

라는 X와 Y 사이의 실제 관계를 나타냅니다.


반면 파란색 선은 관측된 데이터를 통해서 얻은 the least squares line입니다.


모집단 회귀 직선을 알아내는 것은 불가능하기 때문에

실제 주어진 데이터에 대해서 언제나 구할 수 있는 the least squares line을 통해서 모집단 회귀 직선을 추정해야 합니다.


즉, 와 를 the least squares line의 와 을 통해 추정하는 것입니다.




이러한 방법을 통해 모집단 회귀 직선을 추정하는 것은 보편적인 통계학적 접근 방식입니다.


예를 들어, 모집단에서 Y의 평균을 라고 할 때 를 구할 수는 없습니다.

하지만 Y 중 일부인 n개의 데이터에 대해서는 평균을 구할 수 있습니다.


와 은 다르지만, 일반적으로 은 에 대한 좋은 추정이 될 수 있습니다.

(정확도는 n이 커질수록, 즉 표본의 크기가 커질수록 높아집니다.)




이러한 접근 방식은 Bias의 개념을 이해하는 것에도 도움이 됩니다.

02 - 2에서 Bias를 과 의 차이라고 하였습니다.

(http://cdm98.tistory.com/4)



이 무엇인지 더욱 정확하게 정리하도록 하겠습니다.


선형 회귀에서 특정 data set을 통해 얻은 와 

와 와 정확하게 일치하지 않을 것입니다.


하지만 수 많은 data sets을 통해 얻은 와 의 평균

와 과 더욱 비슷한 값을 가집니다.


두 번째 경우와 같이 data sets이 여러 개일 때

각각의 data set에 대하여 구한의 평균()과 의 차이가 Bias입니다.




아까의 예시로 돌아가 이번에는 이 를 얼마나 정확하게 예측하였는지를 알고자 합니다.

가 로부터 얼마나 떨어졌는지를 보여주는 것이 의 표준오차(standard error)입니다.

표준오차는 로 나타내며 아래의 공식을 만족시킵니다.



위의 식을 통해 알 수 있듯이 더 많은 observations을 가질수록(n이 커질수록) 은 감소합니다.





이번에는 와 이 와 로부터 얼마나 떨어져 있는지를 알고자 합니다.

이때 와 의 표준오차는 다음과 같습니다.



여기서 입니다.



위의 식에서 의 분모는 가 퍼져있는 정도를 뜻합니다.

즉, 가 많이 퍼져있을 정도로 가 커지는 것을 알 수 있습니다.




에 대한 추정을 Residual Standard Error(RSE)라고 합니다.

그리고 RSE는 아래와 같습니다.






SE(Standerd Error)신뢰 구간(confidence interval)을 계산하는 데에 사용되기도 합니다.


우선 신뢰 구간이 무엇인지 정리해보도록 하겠습니다.


예를 들어 95%의 신뢰 구간이라 하면

알지 못하는 매개변수의 실제 값을 그 구간이 포함할 확률이 95%라는 것입니다.


선형 회귀(Linear Regression)에서 에 대한 95%의 신뢰구간은 아래와 같습니다.







SE(Standard Error)는 또한 계수에 대한 가설 검정(hypothesis test)에 사용됩니다.

가장 흔한 가설 검정은 귀무 가설(null hypothesis)과 대립 가설(alternative hypothesis)를 검정하는 것입니다.


회귀(Regression)의 상황에서 귀무 가설과 대립 가설은 다음과 같습니다.


 : X와 Y 사이의 관계가 없다 

 : X와 Y 사이의 관계가 있다 






귀무가설이 기각되고 나면 얼마나 모델이 데이터에 잘 들어 맞는지가 핵심입니다.

선형 회귀 적합(Linear Regression Fit)은 전형적으로

Residual Standard Error (RSE) statistic을 사용하여 평가됩니다.






< Residual Standard Error >


X로부터 Y를 예측할 때 error term 으로 인하여 완벽히 예측하는 것은 불가능합니다.

RSE가 바로 의 표준편차(Standard Deviation)에 대한 추정입니다.


간략히 정리하자면, RSE는 response가 실제 회귀선으로부터 떨어진 정도를 뜻합니다.

RSE의 식은 아래와 같습니다.








<statistic>


statistic은 RSE와 달리 분산이 얼마나 잘 설명되는지를 비율(proportion)의 형태로 값을 제공해줍니다.

따라서 항상 0과 1사이의 값을 가지며 Y의 단위에 독립적입니다.



은 다음과 같습니다.



이때 TSS는 아래와 같습니다




예를 들어 이 0.61이라면 선형 회귀에 의해서 response의 약 3분의 2 정도의

variability가 설명되는 것입니다.







값이 크다면 모델이 더욱 좋은 설명력을 가진다고 할 수 있지만

좋은 값이 무엇인지 결정하는 것은 어렵습니다.


왜냐하면 상황에 따라 좋은 값은 다르기 때문입니다.


예를 들어서 물리학의 경우에는

이 거의 1로 매우 작은 잔차(residual)을 갖지만

반면에 생물학, 심리학 등등의 분야에서는

predictior통해서 response의 분산을 설명하는 것이 어렵기 때문에 이 0.1보다 낮습니다.





단순 선형 회귀(Simple Linear Regression)의 경우 대신 상관계수(Correlation)를 사용할 수 있습니다.

(상관계수에 대한 설명은 http://cdm98.tistory.com/12 에 있습니다.)


공분산을 수식으로 나타내면 아래와 같습니다.




그러나 다음에 다룰 다중 선형 회귀(Multiple Linear Regression)에서는 대신 상관계수(Correlation)를 사용할 수 없습니다.