확률론을 공부하면서 재밌는 문제를 쉽게 만난다.
가령 이런 것 말이다.
은행 창구 직원 4명 모두 손님을 받고 있다. 평균 대기 시간은 각각 2, 3, 5, 6분이며, 이 대기 시간은 지수 분포를 따른다. 지수 분포의 특징은 memoryless하다는 것이다. 쉽게 말해 어느 고객을 5분째 응대하고 있든, 10분째 응대하고 있든, 대기 시간의 확률 분포는 그대로다. 예를 들어 첫 번째 직원은 평균 대기 시간이 2분이다. 그러면 내가 언제부터 시간을 재든, 평균적으로 2분을 기다려야 응대가 끝난다는 것이다.
지수 분포를 가정하는 이유는 고객 응대 과정에 "단계"라는 게 딱히 없기 때문이다. 물론 현실과 괴리가 조금 있지만, 하염없이 기다려야 하는 대기열을 분석할 때는 종종 지수 분포를 이용하기도 한다.
아무튼 다시 위 문제로 돌아가서, 내가 은행에 방문한 그 시점에, 창구가 꽉 차 있고 내 앞에 다른 손님은 없다고 해보자. 나는 몇 분 기다려야 할까?
지수 분포에서는 평균의 역수가 발생률이다. 따라서 네 직원의 발생률은 각각 1/2, 1/3, 1/5, 1/6이다. 발생률이란 "단위 시간(즉 1분) 내에 응대가 끝날 확률"을 의미한다.
이 발생률의 합은 6/5인데, 다시 이 6/5의 역수를 취하면 "최소 대기 시간"의 평균이 된다. 즉 50초 정도 기다리면 내 차례가 온다는 뜻이다. 신기하지 않은가? 유도하기도 쉽다.
우선 지수 분포 의 평균은 . 위 네 창구 대기 시간의 분포를 각각 라고 하자.
당연히 각 분포의 발생률은 .
이 중 가장 빠른 시간, 즉 내 차례가 오는 시간도 지수 분포를 따른다. 왜냐?
우선 아무도 완료하지 않았을 확률부터 생각해보자. 시간 t 까지 아무 것도 발생하지 않았을 확률은
. 근데 지수 분포의 확률밀도함수(그냥 외우면 되는)는 이므로, 적분을 통해 를 구할 수 있다. 그러면 다음을 얻는다.
.
그러면, 위에서 네 창구 모두 완료하지 않았을 확률은 니까, 라고 써도 된다.
앗, 이렇게 쓰고 보니 지수 분포의 형태다. 즉 라고 하면, 를 구한 것이다.
즉, 어느 한 창구라도 완료할 확률의 분포가 라는 것. 그러면 이 분포의 평균은 가 되는 것이다.
시간이 없어서 마지막에 설명을 대충 했는데, 누구라도 딱 5번만 끈기 있게 읽으면 이해가 될 거라고 믿는다. 이외에도 지수 분포는 재밌는 특성을 많이 갖고, 특히 푸아송 분포와 깊은 관련을 맺는다.
확률을 계산하려면 분포에 대한 초기 가정이 필요하다는 점이 다소 찝찝하지만, 오랜 관찰에 의해 믿을 만한 분포가 나온 이후에는 확률을 수리적으로 추정할 수 있다는 것이 확률론의 매력이다.
PREVIOUS POST