표준오차(SE)와 추정표준오차(ESE)는 몇 달에 한 번씩 교재를 다시 읽게 만든다.
개념 자체는 단순하다. 그래서 어렵다고 하긴 좀 그렇고, 오랜만에 볼 때마다 '이게 정확히 뭐더라' 하게 된다.
예를 들어보자.
실내 온도가 최근 1년 간 평균 18도, 표준 편차는 0.5도인 냉장고가 있다고 하자.
이 수치는 하루 12회 측정해 얻은 결과라고 하자. 즉 365 * 12 = 4380개 관측값의 평균과 표준 편차인 것이다.
따라서
최근 냉장고 부품을 바꿨는데, 이게 실내 온도에 영향을 줬는지 알고 싶다.
3일 간, 하루 12회씩 총 36회 온도를 재보니 평균 18.5도가 나왔다.
0.5도 차이라... 18도에서 0.5도 올랐으면 2.8% 상승한 것이다.
그리고 표준 편차가 0.5도라는 것은, 1시그마 범위 내에 있다는 뜻이다.
이해를 돕기 위해 1시그마가 무엇을 뜻하는지 아래 그림으로 설명해보겠다.
(출처: 위키백과)
그림에서 보듯, 전체 관측 결과의 68.2% 정도는 평균으로부터 1시그마 거리 안에 존재함을 알 수 있다.
반면 3시그마 거리에 있다면 매우 희귀한 관측 결과가 된다. 평균에서 3시그마 이상 떨어져 있을 확률은 1%보다도 낮다.
이렇게 보니까 18.5도는 간혹 나올 수 있는 우연 같아 보인다. 즉 유의미한 변화라고 확신하기에는 너무 작은 차이로 느껴진다.
이제 우리의 직관을 검정해보자. 우리는 z검정을 사용한다.
우선 가설을 수립하자.
18.5도는 뭐 우연히 나올 수 있는 값이고, 따라서 유의미한 변화가 아니다!
이제 부품 교체 후 평균 온도인 18.5도가 얼마나 희귀한 현상인지 알아보자.
z의 값을 구해야 하는데, 다음과 같이 구해진다.
즉, 과거 평균과 새로운 평균의 차이를 SE로 나눈 것이다. 여기서 SE를 표준 오차(Standard Error)라고 한다.
어떻게 유도된 값이며, 역할이 무엇인지 일단 무시하자. 수많은 통계학자들에 의해서, z는 '새로운 평균이 얼마나 희귀한지 보여주는 값'임이 밝혀졌다. 우린 이 사실을 믿고 쓰면 된다.
SE는 다음과 같이 구한다.
.
분자는 모집단 표준 편차 0.5이고, 분모의 은 표본 크기다. 즉 36이다.
따라서
이고,
이 결과를 두고, "새로운 평균이 18.5도는, 기존 평균 18도에서 6시그마만큼 떨어진 현상이다"라고 해석한다.
즉, 으레 등장할 수 있는 우연이라기엔 확률이 너무 낮다는 뜻이다. 그러니 우리는 최초 가설을 기각하는 게 좋을 것이다.
우리의 직관과 다소 다른 결과이다. 유의미한 변화였을 수는 있지만 6시그마만큼이나 극단적일 거라곤 예상하기 어려우니까 말이다.
아무튼, 보통은 모집단의 표준 편차 를 모르기 때문에, 36회 관측하면서 얻은 그 관측값들의 표준 편차를 대신 사용한다.
관측한 표본의 크기가 25 이상이면(우리의 경우 36회) ESE를 써도 SE를 쓸 때와 결과가 크게 다르지 않다고 알려져 있다.
NEXT POST
PREVIOUS POST