티스토리 뷰

통계학 / 류근관

- 책에 나오는 히스토그램은 안읽고 딴짓을 많이하게 만든 챕터(...)가 되었다.


 이전 장이 '어떻게해야 잘 설계할 것인가?'였다면, 이번엔 '시각화된 자료를 어떻게 잘 해석할 것인가?'이다.

 

 그렇게 어려운 내용이 없어서 휙 지나치다가 재미있는 문제를 보았다. '경구피임약의 복용여부가 혈압에 미치는 영향'에 관한 데이터였다. 책은 '복용자'와 '비복용자'의 데이터를 히스토그램으로 그린 뒤, 비복용자의 전체적인 값을 혈압 5mm 상승시키면 서로의 그래프가 일치한다고 말한다. 그러므로 경구피임약을 먹는 사람들이 약 평균적으로 혈압 5mm가 상승한다고 적었다.


 (물론 책은 설명을 위해 단순화한 것이겠지만)

 복용자가 비복용자에 비해 평균값이 5mm가 높다고 정말 5mm 커졌다고 봐야할까? 평균 값의 차이로만 데이터를 바라보아도 되는걸까?

 5mm 차이 정도는 오차범위 정도로 볼 수 있지는 않을까? 그렇다면 오차 범위라는 걸로 해석하기 위해서 어떻게 계산해야할까?

 일단 복용자와 비복용자의 값은 눈대중으로 보건데 정규분포를 그린다. 그렇다면 정규분포를 이용해 우연인지 아닌지 구할 수는 없을까?

 유의성검정(Z-test)를 python으로 실행해보았다.


 [ 검정 과정 ]


 결과만 적자면, 평균 값으로만 바라보면 차이가 있지만, 정규분포를 이용해 서로의 차이가 유의미할 나올 확률을 구해보면 큰 차이가 없다는 말이 된다. 시각화 뿐만이 아니라 분석 방법에 따라, 데이터로 해석된 결과가 달라질 수 있다는 점을 명심해본다.


 이런 엉뚱한 짓을 한건, 1장을 읽다가 많이 반성했기 때문이다. 비판적 읽기 파트를 읽으면서 표면적인 것 안에 의미가 무엇인지 자꾸 놓치고 있었던 것이다. 급한 나머지, 빨리빨리 흡수하고 싶은 마음에 외우듯 지나쳤던 것이다. 하나를 읽더라도 내 생각으로 읽는게 소중하다는 걸 깨닫고 갔다.


 통계학을 계속 읽다보면, 정확한 것을 추구하기보다 이렇지 않을까라는 가설 위에서 동작하고 있어 보인다. 정규분포도 정말 그렇다기보다 그렇지 않을까?하는 가설을 세워두고 구하는 방식이었다. 잘은 모르지만 대체로 정규분포를 따르더라-라는 성공적인 역사(?)를 기반으로 계속 가고 있는 것 같다.


 엉뚱하게 책의 진도와 관계없이 공부를 했지만... 재미는 있었다ㅎ Z-Test를 돌린다고 18장을 미리 읽어봤는데, 책은 유의성검정에는 한계가 있다며 이를 곧 알려준다고 한다. 너무 기대되서 바로 다음 장을 읽을까 했지만, 급하지말고 기본으로 돌아가야겠다. 아무튼 좋은 책을 구한 것 같아 기쁘다.