숫자를 이용하여 자료의 정보를 요약 기술하는 것을 수치 기술통계(numerical descriptive statistics)라고 합니다.


또한 자료의 평균이나 표준편차, 공분산, 상관계수 등의 계산값을 기술통계량이라고 합니다.




<중심 위치의 척도>


자료들이 대략 어느 위치를 중심으로 모여 있는지 나타내는 척도로 평균(mean), 중앙값(median), 최빈값(mode) 등이 있습니다.

[이 3가지 척도가 모두 m으로 시작하여 흔히 3M이라고 부르기도 합니다]




산술평균(mathematical average, mathematical mean)으로 불리기도 하는 평균(mean)

모든 자료의 값을 다 더한 후 전체 개수로 나눈 것입니다.


표본평균과 모평균의 식은 아래와 같습니다.


표본평균 : 

(n : 표본수)



모평균 : 

(N : 모집단수)




평균은 가장 많이 사용되는 통계량이지만

자료에 특이하게 작거나 큰 값이 들어 있게 되면 부적절한 경우가 있습니다.






이러한 평균의 한계를 극복하여 사용할 수 있는 것이 중앙값(중간값, 중위수; median)입니다.

중앙값은 자료를 크기순으로 늘어 놓았을 때, 가운데에 해당하는 값입니다.


이때 중앙값은 n(자료의 크기)가 홀수이냐 짝수이냐에 따라 구하는 방법이 다릅니다.


n이 홀수일 때는 번째 크기순 자료이고

n이 짝수일 때는 가운데 있는 두 개의 값의 가운데 값입니다.








자료 중에서 빈도수가 최대인 값을 최빈값(mode)이라고 합니다.

명목형 자료에서는 평균과 중앙값이 아무런 의미가 없으므로 이러한 경에는

최빈값을 사용하기도 합니다.






자료를 크기순으로 늘어 놓은 후 똑같은 크기의 네 덩어리로 만들 때 그 경계에 해당하는 값이 사분위수(quartile)입니다.


자료를 네 덩어리로 만들면 일사분위수(Q1), 이사분위수(Q2), 그리고 삼사분위수(Q3)가 생깁니다.

사사분위는 자료의 최댓값이므로 굳이 정의하지 않으며

이사분위수는 중앙값과 같으므로 Q2라는 표기는 사용하지 않습니다.






<변동성 척도>


자료가 변동하는 정도가 얼마나 되는지 나타내는 방법이 변동성 척도(measure of variability)입니다.

변동성 척도에는 범위, 사분위간 범위, 분산, 표준편차 등이 있습니다.





최댓값과 최솟값의 거리를 범위(range)라고 합니다.


그러나 이상값이 존재할 때 자료의 범위가 왜곡되므로 문제가 발생합니다.

또한 자료가 단 두 개일 때 구한 범위와 자료가 여러 개일 때 구한 범위가 같게 나올 때, 

범위가 이들 자료의 변동성을 대표한다고 하기가 어렵습니다.






범위에 의한 변동성 척도가 특잇값에 의하여 왜곡된다면 사분위간 범위(interquartile range, IQR)를 변동성의 척도로 사용합니다.

사분위간 거리는 일사분위수와 삼사분위수의 거리입니다.


즉, IQR = Q3 - Q1 입니다.





자료 하나하나의 값이 전부 고려되어 구해진 변동성 척도가 분산(variance)표준편차(standard deviation)입니다.


분산은 모든 자료가 그 평균으로부터 떨어져 있는 거리를 제곱한 것의 평균값이고

표준편차는 분산의 제곱근입니다.



모집단 분산 : 


모집단 표준편차 : 





표본 분산 : 

(n이 아니라 n-1인 이유는 http://cdm98.tistory.com/11 에 정리되어 있습니다.)


표본 표준편차 : 


이때 분산만 사용하지 않고 표준편차도 사용하는 이유는

분산은 제곱하여 계산한 값이므로 제곱근을 하면 원래의 단위로 돌아오기 때문입니다.






변동계수(coefficient of variation)는 변동성을 평균에 대한 상대적인 값으로 표시한 것입니다.


변동계수 : 


변동계수는 단순히 표준편차를 통해서 비교할 때와 달리 규모를 '표준화'하여 비교할 수 있습니다.


예를 들어 A 이동통신사의 회원수가 B 이동통신사보다 훨씬 많을 때

변동계수를 통해서 비교하면 '규모의 효과'를 상쇄하고 비교할 수 있습니다.






<특잇값의 발견>


우선 특잇값은 통계적, 수학적으로 명확하게 정의할 수 없습니다.


그러나 z-스코어 값이 -2에서 2 사이의 범위를 벗어나거나 또는 -3에서 3을 벗어나는 경우를 특잇값으로 생각할 수 있습니다.

그러나 일률적으로 z-스코어 값 하나에 의존하여 판단해서는 안되고,

자료의 종류와 형태 등과 같은 다른 요소를 고려하여 종합적으로 판단하여야 합니다.



그렇다면 z-스코어가 무엇인지 정리하도록 하겠습니다.


z-스코어는 자료에서 그 평균을 빼고 표준편차로 나눈 값입니다.

이런 식으로 자료를 z-스코어로 변환시키면 평균은 0, 표준편차와 분산은 1인 표준화된 자료가 됩니다.


Z-Score : 



일반적인 거리는 기하학적 개념이고

z-스코어는 평균과 표준편차를 고려한 통계적 거리입니다.


z-스코어의 절댓값이 클수록 자료의 중심부에서 통계적으로 멀리 떨어진 값입니다.






<연관성 척도>


순서형 자료에 대한 연관성 척도는 '스피어맨 순위 상관계수'에서 다루기로 하고

이번에는 연속형 자료의 선형적 관계에 대한 내용만 다룹니다.


선형적 관계에 대한 연관성을 나타내는 측도로는 공분산(covariance) 상관계수(correlation coefficient) 등이 있습니다.


모집단 공분산(population covariance)은 다음과 같이 정의됩니다.



이때 이면, X와 Y가 양의 선형적 관계를 갖고

이면, X와 Y가 음의 선형적 관계를 갖고

이면 X와 Y는 선형적 관계를 갖지 않음을 의미합니다.



또한 은 선형적 관계의 강도(세기)를 나타냅니다.




또한 표본 공분산(sample covariance)은 아래와 같습니다.






그러나 공분산의 경우 단위가 제곱이 되므로 어느 정도의 강도로 선형적인가에 대한 판단 기준으로는 명확하지 않습니다.


따라서 자료의 단위를 상쇄하기 위하여 사용하는 것이

피어슨곱 적률 상관계수(Pearson product moment correlation coefficient)입니다.


피어슨곱 적률 상관계수는 공분산을 각 변수의 표준편차로 나눈 것입니다.



피어슨곱 적률 상관계수는 줄여서 피어슨 상관계쑤, 곱적률 상관계수, 그리고 보통 상관계수라고 부릅니다.


상관계수는 표준화된 척도이므로 단위의 영향을 받지 않습니다.



결론적으로 상관관계는 아래와 같은 성질을 따릅니다.


1.  

2. 모집단상관계수는 단위가 없다.

3.  : X와 Y는 양의 선형적 관계를 의미한다.

4.  : X와 Y는 음의 선형적 관계를 의미한다.

5.  : X와 Y는 선형적 관계가 존재하지 않는다.




또한에 따른 선형적 관계의 강도는 아래와 같습니다.


     : 관계 없음

  : 약한 관계

  : 중간 관계

    : 강한 관계




또한 표본 상관계수는 다음과 같습니다.







그러나 주의해야할 점은 표본상관계수가 0인 경우 또는 0에 매우 근접하더라도

x와 y의 관계가 없다고 판단을 내릴 수 없다는 것입니다.


(출처 : http://codingcoding.tistory.com/226)


위 그림의 경우 x와 y의 관계가 포물선인 2차 방정식의 관계를 나타내고 있습니다.

이럴 경우 상관계수는 0이거나 0에 매우 근접한 값이 됩니다.




위의 예시를 통해서 알 수 있듯이 상관계수는 '선형적' 강도와 방향을 나타내는 통계적 지표라는 사실입니다.


따라서 두 변수 사이에 선형적 관계가 아닌 비선형적 관계가 존재할수도 있으므로

이를 검토하기 위해 산점도(scatterplot)를 항상 그려보아야 합니다.






또한 상관계수를 통해 자료를 분석할 때 주의해야할 점은

두 변수 간의 인과관계에 대한 정보를 제공하는 것은 아니라는 것입니다.


두 변수 사이의 상관계수가 1에 가깝다고 해서 X가 커지면 Y가 커진다(혹은 작아진다)라고 해석할 수 없는 것입니다.







<그룹자료의 평균과 분산>


자료가 도수분포표의 형태와 같이 그룹으로 모아져 있는 경우에는 계급의 중앙값을 그 계급에 속한 자료들의 대푯값으로 사용합니다.

'Statistics > An Introduction to Statistics' 카테고리의 다른 글

베이즈 정리(Bayes' Theorem)  (0) 2018.03.25
확률  (0) 2018.03.25
t분포와 자유도  (2) 2018.03.14