어떤 데이터가 흩어진 정도를 요약해서 보여주는 유명한 수치로는 표준 편차가 있습니다.
그런데 표준 편차가 어떻게 계산되는 것이며, 왜 그것이 흩어진 정도를 나타내는 것인지 모르고 쓰면 안 됩니다.
예를 들어 두 집단의 급여 데이터가 있고, 집단 A 급여의 표준 편차가 집단 B 급여의 표준 편차의 2배라고 해봅시다.
그러면 집단 A 급여가 집단 B 급여보다 2배 흩어져 있는 것일까요? 아닙니다.
표준 편차는 각 값이 평균으로부터 멀어진 정도를 제곱하고, 합친 다음에, 표본 개수보다 1 작은 수로 나눈 다음에 제곱근을 씌운 값에 불과합니다.
그러니까 "표준 편차"라는 것은 흩어진 정도를 표현하기 위해 사람들 간 약속한 계산법에 따라 도출되는 값일 뿐이지, 현상을 실제로 보여주는 값이 아니라는 것입니다.
다시 말해 어떤 데이터의 흩어진 정도를 엄밀하게 표현할 수 있는 하나의 값이란 건 세상에 존재하지 않습니다. '흩어짐'이라는 개념 자체가 추상적이기 때문에, 그것을 어떻게든 표현하기 위해서 애쓰는 과정에서 억지로 개념을 만들어낸 것입니다.
그렇다면 현실을 표현하기 위해서 왜 억지에 가까운 개념을 탄생시켰어야만 했을까요? 그것은 흩어진 정도를 수많은 사람들과 문화권에 편하고 빠르게 전달하기 위해서입니다.
예를 들어 [346, 376, 391, 391, 415, 465, 830, 843, 876, 1627]이라는 자료를 전달하면서 "이만큼 흩어져 있어"라고 말하는 것보다는 "표준 편차가 403.6이야"라고 얘기하는 것이 편하고, 틀릴 가능성이 적기 때문입니다.
하지만 통계학이 오래 전이 아니라 요즘 탄생했다면, 혹은 2100년에 탄생했다면, 애초에 표준 편차라는 개념은 존재하지 않았을 수도 있습니다.
모든 종류의 자료를 아래처럼 visualize해서 표현하는 것이 처음부터 표준이었을 수도 있습니다.
아래 그림은 흩어진 정도를 표준 편차보다 훨씬 쉽게 알려주면서도, 어떤 하나의 수치(즉 표준 편차)로 요약하도록 강요하지 않습니다.
여하간 우리는 이미 표준 편차 같은 개념이 날아다니는 세상을 살고 있습니다.
그렇기 때문에 어떤 개념을 그대로 받아들이지 않는 연습이 필요합니다.
표준 편차가 높으면 많이 흩어져 있는 것이라고 생각하기 전에, 왜 어떤 사람들이 표준 편차를 흩어진 정도로 받아들이기로 했는지 생각해봐야 합니다.