실험이나 관찰을 통하여 얻은 자료를 분석하여 모집단에 대한 정보를 유추하는 것을 통계척 추론(statistical inference)이라고 합니다.
통계적 추론은 추정(estimation)과 검정(testing)으로 나뉩니다.
추정은 모집단에 대한 유추이고,
검정은 모집단에 대한 예상 또는 주장을 자료가 얼마나 뒷받침하느냐를 파악하는 것입니다.
이번 글에서는 추정에 대해서 정리하고 다음 글에서는 검정을 소개하도록 하겠습니다.
추정은 다시 크게 점추정과 구간추정으로 나뉩니다.
점추정은 말그대로 모수를 어떤 하나의 값(point)으로 추정하는 것이고
구간추정은 어떤 구간(interval)으로 추정하는 것입니다.
모수는 상황에 따라 여러 가지가 있으나,
주로 평균 와 분산 그리고 모비율 를 다룹니다.
다시 정리하자면 모집단의 특성값으로 정의되는 모수에 대한 추정이란
무한개 또는 N개의 원서로 구성된 모집단에서 n개의 표본을 추출한 후, 이를 토대로 모집단의 해당 모수의 값을 추측하는 과정입니다.
< 점추정 >
점추정이란 표본에서 얻어지는 정보를 이용하여 미지인 모수(parameter)의 참값으로 생각되는
하나의 값을 일정한 기준에 따라 택하게 되는 과정입니다.
이때 점추정에 사용된 통계량을 점추정량 (point estimator),
표본에서 구한 점추량의 값을 점추정값 (point estimate)라고 합니다.
그리고 모평균 와 분산 그리고 모비율 에 대한 추정량은
각각 로 나타냅니다.
이러한 모수에 대한 추정량은 셀 수 없이 많이 존재하므로
이 중 좋은 추정량을 선택해 사용해야 한다.
추정량이 모수에 가까울수록 좋은 추정량이고
가까운 정도는 추정량의 기댓값과 분산을 통해 나타낼 수 있습니다.
표본으로부터 얻어지는 점추정에는 항상 표집오차가 생깁니다.
표집오차는 모집단 전체를 관측하지 않고 그 일부분인 표본에서만 관측함을써 생기는 오차입니다.
모집단 관심 모수 에 대한 추정량을 이라 하면 추정량의 표집 오차는 로 정의되고,
이는 변동(variation)과 편향(bias, 치우침)으로 분해될 수 있습니다.
추정량 의 표집오차 = = 변동 + 편향
변동 =
편향 =
이때 편향이 0이 되는 추정량을 비편향추정량이라고 합니다.