[경제노트] (확률이야기) '평균의 함정'
-
기사 스크랩
-
공유
-
댓글
-
클린뷰
-
프린트
김진호 < 국방대학원 교수 gemkim@hanmail.net >
평균은 바로 데이터의 모여 있는 특성을 나타내는 대표값이다.
평균소득 평균기온 평균키 평균강우량 평균가격 등과 같이 대부분의
데이터는 평균화되어 우리에게 주어진다.
그러나 평균은 숫자들의 모여있는 정도를 나타내는 유용한 정보지만 분포
전체의 모양을 보여주지는 못한다.
때로는 모여있는 정도보다 흩어져있는 정도를 나타내는 대표값이 더 중요한
경우가 많다.
따라서 흩어진 정도를 모르거나 무시한다면 잘못된 판단을 하게 된다.
훈련중 강을 걸어서 건너야 하는 병사들이 지도에 표시된 대로
평균수심이 1.3m라고 사실만 믿고 도강을 한다면 어떻게 될까.
운 나쁘게도 평균 주위에 흩어진 정도가 크다면(얕은 곳과 깊은 곳이
많다면) 많은 병사가 위험에 처하게 될 것이다.
다른 나라로 몇 년간 일하러 가는 사람이 그 나라의 평균기온이 16도라는
사실을 알고 봄가을 옷만 준비하면 어려움에 처하게 될 수 있다.
기온이 영하 20도에서 영상 30도까지 변화하는 지역이라도 평균 기온은
16도일 수가 있기 때문이다.
어느 대학에서 같은 과목을 두 교수가 가르친다고 하자.
두 교수 모두 평균 C학점을 학생들에게 준다면 그 과목을 선택하는
학생들은 어떤 교수를 선택해도 마찬가지일 것 같다.
그러나 한 교수는 대부분의 학생 등이 평범하다고 생각하여 C만 주고
다른 교수는 학생들이 반은 우수하고 반은 공부를 안한다고 생각하여 A를
주거나 D-만 준다.
그러므로 이러한 흩어짐의 정보없이 학생들이 평균성적이 C라는 사실만
가지고 교수를 선택한다면 학점 때문에 어려움에 처할 수도 있게 된다.
어떤 병에 걸린 환자에게 의사가 이 병에 걸린 사람은 평균 5년 밖에는
못산다고 말한다면 의사는 환자에게 충분한 정보를 제공하는 것이 아니다.
평균 생존기간만 알고 생존기간의 분포에 대해서 모른다면 환자는 그에
알맞는 투병계획을 세울 수 없다.
평균생존기간이 5년이라도 4년반에서 5년반 사이에 분포하는 경우와(대개
5년 내외에 사망함) 1년에서 20년사이에 분포하는 경우(일찍 사망할 수도
있고 꽤 오래 생존하기도 함)의 환자의 투병계획은 다를 것이다.
단지 평균만을 갖고는 합리적인 의사결정을 내릴 수 없으며 올바른 판단을
내리기 위해서는 평균주위의 흩어진 정도도 함께 고려해야 한다.
흩어진 정도의 측정치로 가장 널리 쓰이는 것은 표준편차인데 그 값이
클수록 산술평균을 중심으로 많이 흩어져 있게 된다.
표준편차 대신에 분산을 사용하기도 하는데 표준편차는 분산의 제곱근
(root)을 취한 값이다.
평균값과 표준편차를 함께 고려하면 평균이 중심의 대표값으로서의 역할을
판단할 수도 있다.
예를 들어 평균값에 비해 표준편차가 크다면 자료들이 평균주위에 넓게
흩어져 있는 것이다.
따라서 이런 경우에 평균은 중심의 대표값으로서의 의미가 약해진다.
( 한 국 경 제 신 문 1999년 3월 8일자 ).
평균은 바로 데이터의 모여 있는 특성을 나타내는 대표값이다.
평균소득 평균기온 평균키 평균강우량 평균가격 등과 같이 대부분의
데이터는 평균화되어 우리에게 주어진다.
그러나 평균은 숫자들의 모여있는 정도를 나타내는 유용한 정보지만 분포
전체의 모양을 보여주지는 못한다.
때로는 모여있는 정도보다 흩어져있는 정도를 나타내는 대표값이 더 중요한
경우가 많다.
따라서 흩어진 정도를 모르거나 무시한다면 잘못된 판단을 하게 된다.
훈련중 강을 걸어서 건너야 하는 병사들이 지도에 표시된 대로
평균수심이 1.3m라고 사실만 믿고 도강을 한다면 어떻게 될까.
운 나쁘게도 평균 주위에 흩어진 정도가 크다면(얕은 곳과 깊은 곳이
많다면) 많은 병사가 위험에 처하게 될 것이다.
다른 나라로 몇 년간 일하러 가는 사람이 그 나라의 평균기온이 16도라는
사실을 알고 봄가을 옷만 준비하면 어려움에 처하게 될 수 있다.
기온이 영하 20도에서 영상 30도까지 변화하는 지역이라도 평균 기온은
16도일 수가 있기 때문이다.
어느 대학에서 같은 과목을 두 교수가 가르친다고 하자.
두 교수 모두 평균 C학점을 학생들에게 준다면 그 과목을 선택하는
학생들은 어떤 교수를 선택해도 마찬가지일 것 같다.
그러나 한 교수는 대부분의 학생 등이 평범하다고 생각하여 C만 주고
다른 교수는 학생들이 반은 우수하고 반은 공부를 안한다고 생각하여 A를
주거나 D-만 준다.
그러므로 이러한 흩어짐의 정보없이 학생들이 평균성적이 C라는 사실만
가지고 교수를 선택한다면 학점 때문에 어려움에 처할 수도 있게 된다.
어떤 병에 걸린 환자에게 의사가 이 병에 걸린 사람은 평균 5년 밖에는
못산다고 말한다면 의사는 환자에게 충분한 정보를 제공하는 것이 아니다.
평균 생존기간만 알고 생존기간의 분포에 대해서 모른다면 환자는 그에
알맞는 투병계획을 세울 수 없다.
평균생존기간이 5년이라도 4년반에서 5년반 사이에 분포하는 경우와(대개
5년 내외에 사망함) 1년에서 20년사이에 분포하는 경우(일찍 사망할 수도
있고 꽤 오래 생존하기도 함)의 환자의 투병계획은 다를 것이다.
단지 평균만을 갖고는 합리적인 의사결정을 내릴 수 없으며 올바른 판단을
내리기 위해서는 평균주위의 흩어진 정도도 함께 고려해야 한다.
흩어진 정도의 측정치로 가장 널리 쓰이는 것은 표준편차인데 그 값이
클수록 산술평균을 중심으로 많이 흩어져 있게 된다.
표준편차 대신에 분산을 사용하기도 하는데 표준편차는 분산의 제곱근
(root)을 취한 값이다.
평균값과 표준편차를 함께 고려하면 평균이 중심의 대표값으로서의 역할을
판단할 수도 있다.
예를 들어 평균값에 비해 표준편차가 크다면 자료들이 평균주위에 넓게
흩어져 있는 것이다.
따라서 이런 경우에 평균은 중심의 대표값으로서의 의미가 약해진다.
( 한 국 경 제 신 문 1999년 3월 8일자 ).