티스토리 뷰

 이번엔 읽으면서 영어로된 용어로 적어봐야겠다.

 표준편차 - standard deviation

 자유도 - degrees of freedom


 자유도에 대한 설명을 읽다가 막혔다. 그러고보니 대학생때도 이쪽에서 막혔다가 그냥 외우고 지나쳤던 것 같다. 책의 설명은 매우 부족해서 여러 블로그 글, 위키, Youtube영상을 찾아보았다. 가장 좋았던 [설명]을 링크로 남겨본다.

 자유도라는 의미는 이해하지만, 이걸 왜? 굳이? 표준편차를 구할때 써야하는지 이해가 안됐다. 여전히 자유도에 대한 설명만으로 표준편차 구할 때 써야할 이유는 잘 납득이 되지 않고, 불편추정량의 개념에 의해 쓰는 방법은 납득이 된다. 표본평균은 대개 모평균과 비슷하게 나오는데, 표본 분산은 모분산(?)과 값 차이가 많이 난다고 한다. 그래서 이를 수치적으로 맞추기 위해 1을 뺀다고 한다.

 불편추정량에 대한 증명이 있지만, 증명만으로는 납득은 되지만 감이 오진 않는다. 실제로 가상의 모집단을 만들어본 뒤, 표본조사를 해봐야겠다.

 [ 테스트 ]

 파이썬으로 위와 같이 테스트해보았다. 확실히 자유도를 적용하지 않았을 때, 모표준편차에 비해 표본표준편차가 좀 더 작은 값이 나온다. 자유도를 적용하면 그나마 오차가 줄어드는 편이었다.

 맞는지는 모르겠지만, 어디선가 주워들은 이야기론, 표본이 30 이상일 경우 자유도가 큰 영향이 없다는 걸 본 것 같다. 그래서 표본이 30, 50인 것으로 테스트해보니 오차가 확실히 많이 줄어들었다. 자유도를 적용한 것과 아닌 것의 큰 차이가 없었다. 당연히 그럴 것이, 표준편차를 구하는 공식을 생각해보면, N이 크면 클 수록 N-1의 영향력은 줄어들 수 밖에 없다.