티스토리 뷰

읽는 중: 통계학 - 류근관

챕터: 1장


'통제집단'과 '처리집단'이라는 키워드를 읽었다. 과학이란 누가 같은 방법으로 연구해도 같은 결론에 도달해야한다고 들었다. 이런 생각에서 통제-처리로 나누는 방법이 필요한 것 같다. 게다가 처리집단만 존재할 경우, 실제 효과가 있는지 비교가 안되는 문제도 있다.

그리고 자료를 읽을 시 숫자만 읽어서는 안된다. 통계적 숫자 이면에는 사람이 있고, 그 사람에겐 스스로를 움직이는 동기가 있다. 왜 통계학이 사회-심리-수학을 아우르는 학문이라는 말이 나오는지 이해가 된다. 잘못된 실험이 왜 잘못되었는지, 어떤 수치가 왜 잘못 읽힐 수 밖에 없는지, 말이다. 단순히 숫자만 보고 고개를 끄덕여서는 안된다. 그 숫자 뒤에 가려진 맥락을 읽어야 한다.

'경험적 연구'는 통제가 쉽지 않기 떄문에 혼동을 줄 요인을 통제하는 방법을 쓴다. 이를 지나칠 경우, '심슨의 역설'을 볼 수 있다. 각 부분의 평균이 크다고 해서 전체 평균이 크다고 할 수 없는 상황이 만든어진다는 것이다.

무작위로 배정하여 측정하려는 이유는 비슷한 집단에서의 반응을 가져오기 위해서다. 즉, 퍼센티지라던가 평균은 여러 유형이 비슷하게 모여있는 군집을 만들어서 보려는 방법임을 말한다.

예전에 설문조사 업계에 계신 분께 물어봤던 내용이 기억난다. 어떻게 1000명을 조사했는데 그렇게 정확해요? 인구,지역,나이,성별 등등으로 퍼센티지를 주어 계산한다고 했다. 만약 조사를 실시했는데 50대의 응답률이 너무 높으면, 실제 인구 비율에 맞게 조정한다고 했다.

통계를 공부하다보면 항상 나오는 사례중 하나가 '미국에서 천만명 넘게 조사한 여론조사'이다. '리터러리 다이제스트'라는 잡지가 천만명 넘는 대규모 여론 조사를 했는데 예측에 실패하고 말았다. 대규모 여론조사에서 응답한 사람은 대개 여유롭고 부유한 사람들이었다. 한쪽 성향의 사람들이 응답을 많이 한 것이다. 오히려 5천여명 정도 조사한 갤럽이 더 정확한 예측값을 내놓았다. 통계는 단순히 많이 조사한다고 해서 옳은 결론이 나온 것이 아니었다. 잘 설계된 결과는 무작위 통제가 필요했던 것이다.