Statistical Learning을 이해하기 위해 간단한 예시를 들어보겠습니다.


TV, radio, 그리고 newspaper 3가지 미디어에 대한 광고 예산과

200개 시장에서의 상품에 대한 sales로 구성된 data set을 이용하여

특정 상품에 대한 sales를 높이는 것이 목표입니다.


즉, 광고 예산을 이용하여 sales을 예측하는 것입니다.



이런 상황에서

광고 예산은 input variables이고 sales는 output variable입니다.


input variables는 흔히 기호 로 나타내고

predictors, independent variables (독립 변수), features, 그리고 단순히 variables라고도 합니다.

위의 예시에서는 TV, radio, 그리고 newspaper 예산을 로 나타낼 수 있습니다.


output variables는 기호 로 나타내고

response 혹은 dependent variable (종속 변수)라 합니다.


와 의 관계를 통계학적으로 나타내면 다음과 같습니다.



에 대한 prediction인 의 정확도reducible errorirreducible error 2가지에 의존합니다.


reducible error : 와 의 차이

가장 적절한 Machine learning 기술을 이용하면 의 정확도를 높일 수 있으므로

이 error는 reducible합니다.



irreducible error : 와 의 차이

는 error term, 의 존재로 인해서 정확히 예측할 수가 없습니다.

그 이유는 에 를 예측하는 데에 의미있는 

예측되지 않은 variables 혹은 예측할 수 없는 variation가 포함되어 있을 수 있기 때문입니다.





이 책에서 다루는 내용은 아니지만

이 소개되었으므로 오차()잔차()에 대해서 정리하고 넘어가도록 하겠습니다.


실제 data set에서 모든 data를 모집단의 함수식으로 100% 설명할 수 없습니다.

이러한 이유로 인해 도입된 것이 오차()입니다.

다시 정리하자면 오차()함수식의 값과 실제값의 차이를 뜻합니다.


이와 달리 잔차()는 모집단이 아닌 표본의 함수식에서 나온 개념입니다.

모집단과 마찬가지로 표본에서도 함수식을 구할 수 있는데

이때 또한 모든 data에 대해서 100% 설명가능한 식을 구하는 것은 불가능하므로

함수식의 값과 실제값의 차이를 뜻하는 잔차()를 도입합니다.



또한 를 알 수 없으므로 오차()의 분산을 알 수가 없습니다.

이때 오차()의 분산을 추정하기 위해서 잔차()를 이용하기도 합니다.



결국, 오차와 잔차는 비슷한 개념이지만

모집단의 값인지 혹은 표본의 값인지에 따라 다르게 부르는 것입니다.





각 독립 변수가 에 어떠한 영향을 미치는 지에 대해 관심을 갖는 것은 Inference라고 합니다.

Inference의 경우 prediction과 달리 에 대한 정확한 예측을 하는 것은 관심이 없고

각 변수가 변화함에 따라 가 어떤 방식으로 변하는 지에 대해 주목합니다.





Regression Versus Classification Problems


Variables은 numerical(quantitative) value와 categorical(qualitative) value로 나뉩니다.

Numerical response를 갖는 경우를 regression(회귀), 

categorical value를 갖는 경우를 classification(분류)라고 합니다.


하지만, 이러한 구별이 항상 맞아 떨어지는 것은 아닙니다.

3장에서 다룰 Least squares linear regression은 numerical response를 갖지만,

4장에서 다룰 Logistic regression은 categorical response를 갖습니다.

그 이유는 Logistic regression은 각 class에 속할 확률을 numerical value로 구한 후

이를 바탕으로 어느 class에 속할 것인가를 결정하기 때문입니다.





Supervised Versus Unsupervised Learning


Statistical Learning(= Machine Learning)은 크게 Supervised learning(지도 학습)Unsupervised learning(비지도 학습)으로 나뉩니다.

(지도 학습과 비지도 학습 외에 Reinforcement Learning(강화학습)이라는 갈래로 구분하기도 하지만 


책에서는 크게 이 2가지로 나누었습니다.)



(출처 : https://www.facebook.com/groups/TensorFlowKR/permalink/613320332342362/)


Supervised learning에 linear regression, logistic regression, GAM, boosting, 

그리고 SVM을 포함하여 대부분의 model이 포함됩니다.


반면 Unsupervised learning은 response가 주어지지 않기 때문에 linear regression model에

fitting하는 것은 불가능합니다. 이러한 상황에 사용되는 모델은 cluster analysisclustering입니다.

Cluster analysis의 목표는 각각의 observations이 어떤 group에 속할지를 구별해내는 것이 목표입니다.    




위의 그림은 clustering analysis의 간단한 예시를 plotting 한 것입니다.

여기서 주목해야할 점은 ○, △, +로 나타낸 각각의 그룹이

원래의 data set에 주어지지 않았다는 것입니다.




이 뿐만 아니라 data set의 일부에는 response가 주어지고

나머지에는 response가 주어지지 않는 상황에 대한 학습을

semi-supervised learning이라고 합니다.





출처 : Gareth James -  'An Introduction to Statistical Learning'

오차와 잔차 참고 : http://www.statedu.com/term/7364