당신은 주제를 찾고 있습니까 “통계 오류 – gentleman league 통계는 새빨간 거짓말? 150917 EP.8“? 다음 카테고리의 웹사이트 you.maxfit.vn 에서 귀하의 모든 질문에 답변해 드립니다: you.maxfit.vn/blog. 바로 아래에서 답을 찾을 수 있습니다. 작성자 tvN 이(가) 작성한 기사에는 조회수 6,694회 및 좋아요 44개 개의 좋아요가 있습니다.
통계 오류 주제에 대한 동영상 보기
여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!
d여기에서 gentleman league 통계는 새빨간 거짓말? 150917 EP.8 – 통계 오류 주제에 대한 세부정보를 참조하세요
매주 목요일 저녁 8시 40분. tvN
통계 오류 주제에 대한 자세한 내용은 여기를 참조하세요.
통계의 함정 – 나무위키:대문
연구 표본수가 작아지면 ‘실제로 효과가 있지만 결과 상 효과가 없다는 결론을 도출’하는 제 2종 오류(β)의 가능성이 높아지며 검정력은 감소하게 된다.
Source: namu.wiki
Date Published: 12/16/2021
View: 3382
통계의 오류 정리 – 통계에 속지 말자 : 네이버 블로그
오늘 이야기해드릴 것은 통계의 오류에 관한 내용입니다. . 현 사회는 통계로 되어있는 자료를 볼 때 그것 그대로 받아들이려는 경향이 있습니다.
Source: m.blog.naver.com
Date Published: 12/3/2021
View: 7333
숫자의 환상에서 깨어나기, 통계의 오류 – 성대신문
다양한 원인에 의해 통계의 오류가 발생하는데 그중 가장 대표적인 오류가 ‘심슨의 역설’이다. 특정 모집단의 확률 변수 사이에 성립된 상관관계가 그 …
Source: www.skkuw.com
Date Published: 9/11/2022
View: 9413
논문을 작성할 때에 반드시 피해야 하는 통계적 오류 – 이나고
통계적 오류. 연구 과정에서 통계는 빠질 수 없는 요소입니다. 수 많은 연구자들이 논문이나 글을 작성할 때에 통계적인 분석을 진행하며 이러한 분석은 논문 내의 …
Source: www.enago.co.kr
Date Published: 2/18/2022
View: 1316
당신이 몰랐던 통계 오류 – YES24
당신이 몰랐던 통계 오류. : 데이터 과학 및 분석을 위한 통찰. 알렉스 라인하르트 저 / 배인수 역 | 비제이퍼블릭(BJ퍼블릭) …
Source: www.yes24.com
Date Published: 12/24/2022
View: 2899
거짓말 : 통계의 허상과 실상 – SeeHint
통계 오류로 돌이킬 수 없는 사건이 일어나기도 했다. 1986년 1월 28일 미국 우주왕복선 챌린저호가 발사된 지 73초 만에 폭발해 우주비행사 7명이 전원 숨지는 사고가 …
Source: www.seehint.com
Date Published: 6/20/2021
View: 3046
주제와 관련된 이미지 통계 오류
주제와 관련된 더 많은 사진을 참조하십시오 gentleman league 통계는 새빨간 거짓말? 150917 EP.8. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.
주제에 대한 기사 평가 통계 오류
- Author: tvN
- Views: 조회수 6,694회
- Likes: 좋아요 44개
- Date Published: 2015. 9. 17.
- Video Url link: https://www.youtube.com/watch?v=E7BbNicvDo4
통계의 오류 정리 – 통계에 속지 말자
아까와는 다르게 가로의 단위가 11200부터 시작하여 400씩 증가하므로
가장 적은 수치인 11490보다 가장 많은 수치인 13225이 훨씬 많은 것처럼 보이게 만듭니다.
확실히 눈속임입니다.
5. 정리
지금까지 했던 내용을 경우만 정리해드리겠습니다.
(1) 가설 설정의 오류
(1) – ① 가설의 인과관계가 완전히 잘못되었을 때
(1) – ② 가설의 정확한 인과관계에서 비정확한 원인을 끼워 넣었을 때
(1) – ③ 가설의 인과관계에서 여러 개의 원인 중 부분만 이용할 때
(1) – ④ 상관관계가 있을 때 나타나는 가설의 인과관계가 분명치 않은 경우
(2) 데이터 수집의 오류
(2) – ① 표본 수집 방식을 잘못 설정했을 때
(2) – ② 표본을 무작위가 아닌 임의로 지정했을 때
(2) – ③ 너무 작은 표본을 설정했을 때 나타나는 일반화의 오류
(2) – ④ 인위적인(조작한) 표본에 의한 오류
(2) – ⑤ 조사대상에서 벗어난 표본을 잡았을 때
(2) – ⑥ 질문을 교모하게 유도하는 방식
(3) 데이터 정리의 오류
(3) – ① 평균의 오류
(3) – ② 데이터의 잘못된 추론
(3) – ③ 결론에 끼워 맞추기 위한 데이터 정리
(3) – ④ 분류하기 애매한 데이터를 분류할 때
(3) – ⑤ 분류하기 애매한 데이터 분류에서 빼어버렸을 때
(3) – ⑥ 순위에 대한 조작
(4) 결론 도출에서의 말장난과 눈속임
(4) – ① 배율을 활용한 말장난
(4) – ② 높은 숫자를 활용한 말장난
(4) – ③ 기준에 따른 눈속임
(4) – ④ 제로리스크에 대한 말장난
(4) – ⑤ 앞뒤 확률을 빼먹은 말장난
(4) – ⑥ 지표를 활용한 눈속임
위 내용을 모두 숙지하신다면, 잘못된 통계(80% 이상)를 한눈에 알아보실 수 있게 되실 겁니다.
6. 올바른 통계 확인 방법
지금까지 통계의 오류에 관한 내용을 보았고, 정확한 통계를 알려면 어떠한 점을 봐야 하는지 또한 중요한 부분이므로
언급하고 마무리하도록 하겠습니다.
첫째로 통계에 있어서는 반드시 조사 기관과, 목적을 확인해야 합니다.
둘째로 통계의 결론까지 만들어지는 과정을 검증해봐야 합니다.
① 가설의 원인과 결과의 인과관계가 잘 맞아떨어지는가
② 표본 설계는 잘 하였는가
③ 표본의 데이터 수집은 정확하게 하였는가
④ 표본의 데이터 정리를 오해 없게 확실히 하였는가
⑤ 결론 도출을 합당하게 하였는가
셋째로 이 통계자료가 어떻게 이용되고 있는가를 봐야 합니다.
7. 마무리
정보가 넘쳐나는 현시대, 정확한 정보를 확인하는 것 또한 중요한 부분이 되어버렸습니다.
통계 또한 이 부분의 하나인데, 이번 통계의 오류 정리를 보심으로써 통계에 오류가 많다는 사실을 깨닮으셨기를 바라며
제발 믿지 않는 것이 더 낫지 잘못된 통계로 인해 선동당하는 멍청한 시민은 되지 마십시오.
(참고)
이 포스팅은 통계 비전문가가 통계학자의 검토를 구하지 않은 포스팅입니다.
잘못된 내용 또는 잘못된 것 같은 내용이 있다면 언제든 댓글을 달아주십시오.
(단, 글 외적인 부분의 댓글은 답글을 써드리지 않습니다.)
포스팅 내부에 언급되지 않은 참고문헌.
(1) 통계의 함정, 율리시즈, 박병화 옮김.
(2) 당신이 몰랐던 통계 오류, 비제이퍼블릭, 배인수 옮김
(3) 각종 논문 참고. 적어 놓지를 않음 ㅜㅜ. 내용을 베껴 쓴 부분은 없습니다.
ps. 18년 7월 26일 비논리적인 언구를 일부 수정하였습니다.
숫자의 환상에서 깨어나기, 통계의 오류
통계 결과의 객관성 해치는 주범
현실 조작해 대중 현혹하기도
현대사회에서는 정보 전달을 위해 표와 그래프를 흔히 사용한다. 이처럼 통계는 현대사회에서 큰 비중을 차지한다. 그러나 영국의 정치가 벤자민 디즈레일리가 “세상에는 세 가지 거짓말이 있다. 그럴듯한 거짓말, 새빨간 거짓말, 그리고 통계다”라고 말했듯 통계에는 오류가 발생하기 쉽다. 통계의 오류는 현실을 조작해 대중을 속이기 때문에 이에 대해 알아둘 필요가 있다.
객관성을 잃은 통계
통계의 오류란 통계 분석 결과의 객관성을 해치는 오류 또는 편향을 의미한다. 다양한 원인에 의해 통계의 오류가 발생하는데 그중 가장 대표적인 오류가 ‘심슨의 역설’이다. 특정 모집단의 확률 변수 사이에 성립된 상관관계가 그 모집단을 분할한 하위 집단에서는 성립하지 않는 것이 ‘심슨의 역설’이다. 예를 들어 의사1이 환자를 완치시킬 확률이 30%이고 의사2가 환자를 완치시킬 확률이 60%일 때, 단순히 보면 의사2가 더 실력 있다고 볼 수 있다. 그러나 의사1이 중환자 수술을 많이 맡았고 의사2가 그에 비해 가벼운 수술을 많이 맡았다면 단순히 의사2의 실력이 더 뛰어나다고 말할 수 없다. ‘심슨의 역설’이 발생하는 원인에 대해 서병태(통계) 교수는 “통계를 분석할 때 중요한 변수가 무시됐거나 각 부분의 표본 크기나 비율이 다른데도 불구하고 가중치를 주지 않았을 때 ‘심슨의 역설’이 발생할 수 있다”고 설명했다.
상관관계와 인과관계
통계 자료를 통한 현상 예측 및 분석에서 상관관계와 인과관계를 구별하지 못해 잘못된 결과가 도출되는 오류도 흔히 발생한다. 서 교수는 “설명변수X가 반응변수Y를 잘 설명한다는 말은 두 변수 사이의 밀접한 관계를 나타낸 것이지 인과관계를 나타내는 것이 아니다”라고 설명했다. 예를 들어 X를 화재현장에 출동한 소방관의 수고 Y를 화재 피해액이라고 할 때 둘 사이에 양의 상관관계가 성립할 수도 있다. 그렇다고 출동한 소방관 수가 많을수록 화재피해액이 증가한다는 인과관계를 도출한다면 이는 통계의 오류에 해당한다. 제3의 요인, 예를 들어 화재의 크기가 해당 상관관계의 성립에 영향을 미쳤을 가능성이 있기 때문이다. 상관관계와 인과관계 혼동의 오류에 대해 서 교수는 “잠재변수의 존재 가능성에 대해 주의해야한다”며 “잠재변수란 관측되지 않은 숨겨진 변수로 관측된 변수들의 상관관계에 중요한 영향을 끼치는 변수”라고 강조했다.
머신러닝의 과적합
통계가 필수적인 인공지능의 한 분야인 머신러닝에서도 통계의 오류인 ‘과적합’이 발생할 수 있다. 서 교수에 따르면 ‘과적합’은 인공지능이 이미 주어진 학습 데이터에 대해서는 올바른 결과를 출력하지만 새로 주어진 자료에 대한 분석과 예측 정확성은 현저히 떨어지는 통계의 오류를 의미한다. ‘과적합’은 주어진 자료 수에 비해 특징이 많은 경우 발생한다. 경기 승패 예측 모형을 생각해보면 승패 예측을 위해서는 감독의 역량, 선수들의 역량, 경기장의 상태 등 많은 특징을 고려해야한다. 그러나 3경기의 승패 예측 자료만 주어졌다면 새로운 경기 승패 예측 시 ‘과적합’이 발생한다. ‘과적합’은 자료 묶음에 비해 과도하게 많은 특징의 수를 감소시키는 방법으로 해결할 수 있다. 위의 예시로 본다면 승패 예측에 감독의 역량과 선수들의 역량이라는 두 가지 특징만을 이용하는 것이다. 그러나 특징의 수를 과도하게 감소시키면 부작용이 발생할 수 있다. 이에 대해 서 교수는 “그러나 이 과정에서 해당 모형에 큰 영향을 주는 특징을 제거할 경우 예측 정확성이 현저히 떨어질 수 있다”고 설명했다. 이 외에도 특징을 제거하지 않고 데이터를 일정한 규칙에 따라 변형해 이용하기 쉽게 만드는 ‘정규화’를 통해 ‘과적합’을 해결할 수 있다.
그래프의 현혹
위에서 살펴본 오류와는 달리 통계 결과를 표현할 때 대중을 현혹하기 위해 인위적으로 오류를 발생시키는 경우가 있다. 시각 자료의 조작이 그런 경우다. 뉴스나 신문 등 매체에서는 정보 전달 시 시각 자료를 자주 이용한다. 시각 자료 이용 시 관련 기관은 해당 자료를 시각적 왜곡을 통해 자신에게 유리한 방향으로 조작한다. 이때 시야를 좁게 만들어 특정 부분만 눈에 들어오게 하는 ‘시야 협착 효과’가 종종 사용된다. 매체에서는 눈금과 눈금 사리의 거리를 늘이기, 그래프 일부만 확대하기, 색상을 이용해 특정 항목만 강조하기 등의 방법을 통해 그래프 왜곡을 한다. 이러한 시각 자료 왜곡을 통한 대중의 현혹은 예전부터 사용된 뻔한 방법이지만 아직까지 효과를 발휘하고 있고 최근 정부의 대국민 정책 홍보 책자에서도 사용됐다. 제시된 그래프가 해당 자료인데 똑같은 5만원 단위를 다른 크기로 표현하고 있고 색상을 이용해 특정 항목만 강조하고 있다. 또한 화살표를 이용해 특정 항목에서의 증가를 강조하고 있다.
『새빨간 거짓말, 통계』의 저자 대럴 허프에 따르면 그래프의 특정 부분에 현혹되지 않기 위해서는 x축과 y축에 유의해야 한다. 특히 해당 축들의 눈금 간격이 일정한지를 점검해야 한다. 또한 색상을 통한 시각적 효과에 의해 특정 항목만 강조되고 있지는 않은지 살펴봐야 한다. 이외에도 제시된 자료와 같이 갑자기 화살표가 등장해 해당 자료에서 그래프의 증가나 감소를 보여주고 있다면 조작 수단일 가능성이 높으니 주의해야 한다.
주의의 필요성
통계는 불확실한 상황을 예측하거나 특정 현상을 분석하는데 사용된다는 의의가 있다. 그러나 앞서 말한 것처럼 통계의 정확성과 객관성을 해치는 오류들이 발생할 수 있다. 이러한 통계의 오류들에 대해 서 교수는 “최대한 통계의 오류가 발생하지 않는 것이 좋지만 만약에 발생한다면 이에 현혹되지 않게 주의해야 한다”고 당부했다.
저작권자 © 성대신문 무단전재 및 재배포 금지
논문을 작성할 때에 반드시 피해야 하는 통계적 오류
연구 과정에서 통계는 빠질 수 없는 요소입니다. 수 많은 연구자들이 논문이나 글을 작성할 때에 통계적인 분석을 진행하며 이러한 분석은 논문 내의 양질의 데이터 및 연구의 수준을 나타내는 중요한 척도로써 작용합니다. 여기서, 수준 있는 통계적 분석이란 단순히 분석이 통계적으로 독자들에게 이해가 잘 되는 것 만을 의미하지 않습니다. 진정한 통계적 분석이란 단순히 분석 결과가 명시적으로 좋은 것 만을 의미하지 않으며, 통계를 내는 과정에서부터 올바른 접근 혹은 방법을 통하여 도출해야만 진정한 통계적 분석이라고 할 수 있습니다. 오늘, 본문에서는 연구자들이 통계적 분석을 진행하는 과정에서 일반적으로 범하기 쉬운 몇 가지 통계적인 오류를 다룰 것입니다. 특히 통계적인 오류를 크게 두 부분 (데이터 시각화의 오류, 통계 blunders galore) 으로 나누어서 각 부분 내에서 주의해야할 사항에 대해 설명해보고자 합니다.
데이터 시각화 (Data visualization)의 오류
데이터 시각화 (Data visualization)의 오류란 데이터를 읽고 해석하는 시각화의 과정에서 일어나는 오류를 의미하며, 이는 글의 저자와 글을 읽는 독자 모두에게 혼돈을 줄 수 있는 요소로 작용하기에 주의해야합니다. 만일 저자가 데이터의 해석 및 표현 과정에서 부정확한 표현을 사용한다면, 이는 독자의 데이터 추론을 왜곡시킬 수 있고 심지어 저자가 전달하는 데이터 내의 해석이 아닌 독자 개개인의 해석이 첨가되어 잘못된 결과가 도출될 수도 있습니다. 데이터 시각화의 오류는 크게 원형 차트, 막대 그래프, 시간 차트를 그릴 때에 나타날 수 있으며 각 항목의 주의할 사항들은 아래와 같습니다.
원형차트(Pie Chart)를 그릴 때
일반적으로 데이터 시각화의 과정에서, 범주형 값을 나타날 때에는 파이 차트를 이용한 데이터의 전달이 선호됩니다. 그러나 파이 차트를 이용하는 과정에서 쉽게 나타날 수 있는 오류들이 있으며, 주의해야 하는 사항은 아래와 같습니다.
파이 차트의 백분율은 최대 100%가 되어야 합니다.
VR 콘솔에서는 원형 모양의 차트보다는 3D 차트가 더 적합합니다.
파이 차트 내에서, ‘기타’ 라는 표기가 차트에 있어서는 안됩니다. 특히 ‘기타’ 항목의 비중이 나머지 항목들보다 큰 비중을 차지할 경우 원형 차트가 모호해질 수 있습니다.
막대 그래프 (Bar graph) 데이터 시각화하는 과정에서 막대 그래프는 특정 그룹의 수 또는 백분율을 통해 범주형 데이터를 표시하기에 최적화된 그래프입니다. 막대 그래프를 나타낼 때에 검사해야 할 고려사항은 아래와 같습니다.
단위의 범주 (scale)을 지정할 때에 주의를 기울여야합니다. 범주를 너무 설정한 다면 데이터 내 그래프의 크기와 높이가 너무 작아질 수 있고, 반대로 범주가 너무 작게 설정되어 있다면 그래프가 너무 크게 보일 수 있습니다.
막대 그래프 내에서 막대의 높이로 표시되는 단위와 그 결과가 의미하는 바에 대해서도 정확히 기입하여 해석과정에서 오류가 생기는 것을 방지해야 합니다. 축의 제목을 정확하게 입력하며, 또한 범례를 명확하게 보일 수 있도록 하십시오.
시간 차트 (Time chart)
시간 차트는 데이터의 시각화 과정에서 측정 가능한 샘플 또는 실험군이 시간에 따라 어떻게 변하는 지를 수치적으로 보여주기 위한 목적으로 적합한 차트입니다. 시간 차트를 그릴 때에 검사해야 할 고려사항은 아래와 같습니다.
가로축과 세로축의 지정할 때 올바로 지정하는 것이 중요합니다. 일반적으로 세로 축을 샘플의 데이터, 가로 축을 시간으로 하는 것을 추천 드리며 만일 이러한 일반적인 축의 설정이 아닐 때에는 혼란이 생기지 않도록 더욱 확실하게 명시하여 독자들의 혼돈을 방지해야 합니다.
데이터를 통해 도출된 결과를 전달하는 것에 집중해야 하며, 그 이유에 대해 억지로 설명하려고 시도하지 않는 것을 추천합니다. 데이터는 결과를 명확학게 보여주기 위한 시각화의 도구일 뿐이기 때문입니다. 그러므로 차트를 이용해서는 ‘왜’ 일어났는가 보다는 ‘무엇이’ 일어났는지에 초점을 맞춰서 데이터를 전달하는 용도로 사용하세요.
히스토그램 (Histogram)
히스토그램이란 표로 되어 있는 도수 분포를 정보 그림으로 나타낸 차트를 의미하며 도수분포표를 그래프화 시킨 방식을 의미하기도 합니다. 히스토그램을 이용하여 데이터의 시각화를 시도할 때에는 다음의 사항에 주의하여 오류가 발생하지 않도록 하십시오.
부적합한 범주 (scale)을 사용하여 결과가 표시되지 않도록 주의하세요
x축과 y축의 간격이 잘못될 경우 데이터가 더 작거나 크게 보일 수 있으므로 이에 주의하세요.
사람들이 히스토그램을 막대그래프와 혼동하는 경향이 있으므로 그에 주의하여 히스토그램의 적용이 올바른지 확인하세요.
잠재적인 실수나 변화에 따른 오류
실수나 변화는 연구 도중 언제나 발생할 수 있는 상황이며 이에 따른 오류 또한 피할 수 없는 사항입니다. 이러한 오류가 발생시 독자에게 전달하는 통계적 분석이 정확하지 않아 잘못된 해석을 낳을 수 있습니다. 이러한 오류를 대비하기 위해 주의할 사항들은 아래와 같습니다.
바이어스 데이터 (biased data)
바이어스란 통계학에서 실제 값을 초과하거나 실제 값에 못 미치는 경우를 의미하며 편차로도 해석이 됩니다. 통계학적인 오류는 미리 확실히 확인되고 조사되지 않는다면 큰 비용이 소모될 수 있기 때문에 오류가 생기지 않도록 미리 조심해야합니다. 예로 들어, 불안정한 실험기기를 사용할 경우 이러한 바이어스의 원인이 될 수 있습니다. 예로 든다면, 당신이 무게를 측정할 때마다 5파운드씩 무게가 더해지는 저울을 사용한다면 이는 오류의 원인이 될 것입니다. 그 밖에도 잘못된 실험군을 설정한다면 이 또한 바이어스의 원인이 될 수 있습니다. 만일 사람들의 운동습관에 대한 연구를 진행할 때, 체육관의 사람들 만을 표본으로 설정하여 통계를 진행한다면 이는 큰 오류를 낳을 수 있습니다.
표본오차를 유발할 수 있는 상황
이는 잠재적인 계산 실수나 상황에 따른 변화들을 의미합니다. 이러한 실수 혹은 변화가 발생한다면, 큰 문제가 될 수 있기 때문에 이러한 실수를 미리 예상하여 통계학적 결과에 반영하는 것은 정확도를 높일 수 있는 방법이 됩니다. 이러한 표본 오차를 초래할 수 있는 상황을 최대한 만회하기 위해서는 꾸준한 통계분석을 진행하여 표본 집단인 사람들로 하여금 연구의 정확도에 의문을 갖지 않도록 하는 방법이 중요합니다.
무작위적이 않은 샘플
무작위적이지 않은 샘플을 사용한다면, 이는 편중된 데이터를 유발할 수 있습니다. 또한 잘못된 모집단의 선정은 통계학적 오류의 큰 원인이 될 수 있으며 나중에는 보다 더 큰 문제에 봉착할 수도 있습니다. 그렇기 때문에 모든 연구를 진행함에 있어서 연구가 무작위 표본을 기반으로 하고 있는지 확인하는 과정이 필수적입니다.
상관관계에 있어서의 오류
앞서 말한 원인 뿐만 아니라 상관 관계에 따른 오류 또한 잘못된 통계의 원인이 됩니다. 먼저, 상관 관계는 체중과 키, 통화시간과 보류시간, 과목의 시험점수와 해당 과목을 공부하는 데 소요된 시간 등과 같은 두가지 변수에만 적용이 되는 개념이라는 사실에 유의해야합니다. 그러므로 만일 당신이 “이 결과는 성별에 따른 상관관계가 있는 것 같습니다.” 라는 말을 들었을 때, 섣불리 판단하지 않는 것이 좋습니다. 특히 성별의 경우 연구패턴과 어느 정도의 연관성을 가질 수는 있지만 통계적으로 연구와 성별의 상관관계는 없다는 사실을 확실히 직시하고 있어야 합니다. 상관관계의 경우, 선형관계의 방향성과 관계성을 측정하는 데에 도움이 됩니다. 또한 선형관계가 가장 큰 카테고리이며 그 안에 상관관계를 포함한 다른 관계들이 존재한다는 것을 이해하고 있어야합니다. 만일 그 둘 사이의 상관관계가 없다면 이는 그 사이에는 선형 관계가 없다는 것을 의미하지만 다른 관계 유형이 오히려 존재할 수 있음을 알아야 합니다.
잠재적인 실수
통계와 함께 나타날 수 있는 모든 정보를 곧이곧대로 받아들여서는 안됩니다. 이미 알고있는 것처럼 오류는 항상 나타날 수 있다는 것을 명심하십시오. 그러므로 마지막에 다음의 체크리스트를 확인하며 오류를 방지하는 습관을 들이세요.
A 각 항목의 합산이 총합과 일치하는지 확인해보세요
B 데이터 내의 숫자와 계산과정을 모두 더블체크 (double check) 하여 혹시 모를 실수에 대비하세요
설문조사가 있을 경우, 응답 비율 (응답한 사람의 수를 설문 조사를 시행한 사람들의 수로 나눈 값) 을 계산해보세요. 또한 설문조사를 시행했다면, 질문이 적합한지를 다시 한번 확인해보세요. 항목들의 이름이 정확하게 명시되어 있는지 확인해보세요
글을 작성할 때에 통계적 오류를 일으킨 경험이 있나요? 혹은 자신만의 통계적 오류를 방지하기 위한 팁이 있으신가요? 그렇다면 아래에 코멘트를 통해 경험을 함께 공유해주세요.
당신이 몰랐던 통계 오류
출판사 리뷰
이 책의 구성
이 책에서 저자는 여러분들에게 자주 발생하는 오류들의 명칭에 대해서 알려줄 뿐만 아니라, 그것들에 얽힌 재미있는 일화들도 같이 언급한다. 세세한 수학 공식을 들지 않고도 왜 통계학적 오류가 오류인지 설명한다. 그리고 이렇게 언급된 오류들이 얼마나 자주 발생하는 것들인지 보여주는 연구자료를 첨부시켰다. 이는 책을 읽기 어렵게 만드는 요소이지만, 그럴만한 가치가 있다고 생각한다. 기초적인 통계학을 제대로 이해하는 것은 과학계에 종사하는 사람들에게 반드시 필요한 일이다.
통계분석분야에 종사하는 사람들을 위해, 각 장의 끝부분에 자주 행하는 실수들을 피하기 위해서 사용할 수 있는 통계학적 기술들에 대해서 적어놓았다. 하지만, 이 책은 교과서가 아니기 때문에 이런 기술을 적용하는 부분에 대해서는 자세히 적어놓지 않았다. 다만, 저자는 독자들이 자주 발생하는 통계학 오류들을 이 책을 통해 알게 되어 자신의 상황에 맞는 통계학적 기술을 고를 수 있는 안목을 가질 수 있기를 바란다.
어떤 특정 주제에 대해서 독자들의 호기심을 자극하기 위한 경우에는 관련된 참고문헌을 포함시켰다. 또한 매번 통계학적 오류들이 소개될 때마다 참고자료도 같이 포함시켰다. 이 책은 개념을 이해하는 데 중점을 두고 있기 때문에, 많은 수식을 제외시켰다. 하지만, 만약 이 글을 읽는 독자가 명확하게 그 뜻을 알고 싶어한다면 참조된 원본 논문을 읽어보는 것을 권장한다.
이 책은 과학이라는 이름 아래에서 자주 행해지는 터무니없는 통계학적 오류들을 소개하기 위해서 쓰여졌다. 많은 과학자들이 제대로 된 통계학 수업을 받지 않았기 때문에(게다가, 저자는 통계학을 이미 알고 있는 사람들로 독자들을 한정 시키고 싶지 않았다고 책 속에서 밝히고 있다) 이 책은 정식으로 통계학 수련을 받지 않은 독자들을 대상으로 쓰여졌다. 몇몇 독자들은 첫 장을 읽지 않고 넘어가도 되지만, 저자가 설명하는 방식에 익숙해지기 위해서는 속독해보는 것을 권한다.
연구자의 논문에 사용된 통계학적 방법은 연구자가 사용한 다른 방법들과 같이 평가될 때서야 비로소 제대로 평가받을 수 있다. 예를 들면, 연구방법 설계, 측정방법, 연구비용제한, 실험의 목표 등을 같이 고려해야 한다. 통계학에 대한 이해란, 연구들의 잠재적인 편향이라든지, 제한 사항이나 강점들을 이해하는 데 사용되어야지 개인적인 믿음에 대해서 반하는 논문이나, p값을 오용한 논문들을 비난하는 데 사용되어서는 안 된다. 그리고 또 한 가지 명심해야 할 점은, 잘못된 통계로 인해서 얻어진 결론은 여전히 옳은 결론일 수 있다는 점이다. 통계학적 그리고 논리적 오류로 인해서 결론이 틀리는 것은 아니다. 다만 그만큼 설득력이 떨어지는 것뿐이다. 간단하게 말해서, 저자는 통계학을 적용하는 데 있어서, 책임감을 가져주길 바란다고 이 책을 통해 이야기하고 있다.
거짓말 : 통계의 허상과 실상
불량지식 ≫ 학계 ≫ 겉보기 지식, 다른 해석, 뒤집히는 주장, 무책임
의료 통계의 허상과 실상
Junk Science : 거짓말 : 전문가, 과학
거짓말의 세 종류 : 거짓말, 빌어먹을 거짓말, 그리고 통계
중앙일보 2011.05.17 조현욱 객원 과학전문기자
미국에서 호흡기 질환 사망자 수가 가장 많은 주는 애리조나다.
– 추정 : 살인적으로 공기가 나쁜 주인 모양이다.
– 진상 : 미국에서 공기가 가장 좋은 주의 하나로 전국의 호흡기 질환자가 이주해온 것
서울의 한 대형병원 중환자실 입원자 8명이 정체불명의 폐렴에 걸린 환자였다.
게다가 이 중 한 명이 사망했다. 여기서 추정할 수 있는 사실은?
– 추정 : 신종 유행성 폐렴의 집단 발생 가능성. 이 병원이 진원지일지도 모른다.
– 진상 : 전국 각지에서 발병한 환자들이 상태가 악화되자 이 병원으로 이송된 것이다. 호흡기 관련 명의들이 즐비하고 중환자실 규모도 가장 큰 이곳으로. 또한 폐렴은 중환자실의 사망 원인 제1호로 꼽힌다. 지난주 국민들을 불안에 떨게 했던 소위 ‘정체불명 폐렴’ 소동의 진상은 바로 이것이다. 애초에 환자가 발생했던 지역에서는 추가 환자가 나타나지 않았다. 그리고 폐렴 중 30% 정도는 원인이 파악되지 않는 것이 보통이다. 이를 바탕으로 ‘신종 폐질환 환자’가 전국에 퍼져 있는 듯하다고 주장할 수는 없는 노릇이다.
미국 캘리포니아 주민 12만여 명을 인터뷰한 결과 동성애 남자는 과거나 현재 암 진단을 받은 일이 보통 남자의 2배에 이르는 것으로 나타났다. 게다가 진단 시기도 일반인보다 평균 10년 일렀다. 15일자 학술저널 ‘암(Cancer)’에 실린 논문의 내용이다. 여기서 추정할 수 있는 사실은?
– 답 : 실제로 남성 동성애자는 직장암 발생률과 에이즈 바이러스 감염률(암과 연결된다)이 더 높다. 이 탓에 암에 더 많이 걸리는 것일 수 있다.
– 진상 : 아직 모른다. 인터뷰 대상이 생존자들뿐이기 때문이다. 동성애 남자가 암에 걸릴 위험이 더 높은 것일 수도 있고 그게 아니라 암 발생 후의 생존율이 더 높은 것일 수도 있다. 그리고 검사를 특히 열심히 받고 있어 남보다 10년쯤 일찍 암을 발견하는 것일 수도 있다. 결론 : 전문가들의 추가 연구가 필요하다. 영국 BBC 뉴스는 기사 첫머리부터 추가 연구의 필요성을 지적하고 있다. 하지만 한국 언론이라면 “게이는 암 위험 두 배” 같은 식으로 보도하기 십상이다. 지난주 폐렴을 보도하는 태도에서 여러 차례 확인된 사실이다. 주요 방송조차 “신종 폐질환 환자, 전국에 퍼져 있다? 정황 포착” 같은 제목의 뉴스로 불안감을 부추기지 않았던가.
—————————-
심우 과학칼럼니스트
《 ‘톰 소여의 모험’으로 유명한 미국 작가 마크 트웨인은 거짓말에는 세 가지가 있다고 했다. `거짓말(Lie), 지독한 거짓말(Damned Lie), 통계(Statistics)`이다. 첫번째 `거짓말`은 선의의 거짓말, 두번째 `지독한 거짓말`은 악의적인 새빨간 거짓말, `통계`는 엉터리 수치로 진실을 왜곡하는 거짓말을 의미한다. 이처럼 일반인들에게 통계는 숫자로 무장한 전문가들이 자기들 입맛 대로 데이터를 조작하는 기법으로 불신의 대상이 되고 있다. 매년 9월 1일은 통계의 날이다. 이 날은 과학 분야는 물론 정치, 경제, 사화, 문화 등 각 분야에서 사용되는 통계의 중요성을 홍보하기 위해 만들어졌다. 그러나 통계는 변수에 따라 그 값이 크게 달라질 수 있고 자칫 조그마한 실수로 오류가 나기 쉽다. 통계적 분석을 할 때는 표본을 어떻게 수집하느냐에 따라 결론이 달라지기도 한다.》
“여성들이여, 그대들의 남편을 조심하라. 살해당한 모든 여성의 절반은 자신의 남편이나 애인에 의해 희생당했다.” –
이는 살해당한 여성들의 가해자를 통계자료로 분석한 결과, 가해자의 절반 이상이 자신의 남편이나 애인이라는 수치를 인용해 보도된 기사에 등장한 문구다. 모르는 사람보다 사랑하는 사람에게 살해당할 가능성이 더 높다는 결론이다. 하지만 이는 숫자만 보고 판단한 대표적인 통계의 오류다.
남편이나 애인이 있는 여성들은 그들과 보내는 시간이 다른 사람과 보내는 시간보다 많은 편이다. 그만큼 남편이나 애인이 가해자가 될 가능성도 커진다.
밤보다 낮에 교통사고가 더 많이 발생하는 이유와 비슷하다. 낮에 운전하는 사람들이 밤에 운전하는 사람들보다 많기 때문에 통계 자료 수치에서도 낮 시간에 일어난 교통사고가 더 많은 것이다. 이는 단순 비교로 통계를 해석했을 때 발생하는 오류로 볼 수 있다.
국내 이혼율에서도 대표적인 통계의 오류를 찾을 수 있다. 2002년 국내 이혼율이 47.4%를 기록했다는 통계자료가 발표돼 논란이 일었다. 이 수치대로라면 국내 부부 두 쌍 중 한 쌍이 이혼을 한다는 뜻이다. 하지만 이는 곧 통계 오류임이 밝혀졌다. 47.4%라는 수치는 2002년도에 이혼한 부부의 수를 동일한 연도에 결혼한 부부의 수로 단순히 나눠서 나온 값이었던 것이다.
예를 들어 2002년도에 결혼한 부부의 수가 1만 명이고 이혼한 부부의 수가 5000명이라면, 이혼율이 50%가 된다. 하지만 2002년에 이혼한 부부의 수는 그 이전 년도에 결혼한 경우가 대부분이다. 이를 간과하고 특정 연도만 따질 경우, 결혼한 부부보다 이혼한 부부가 더 많을 수 있다. 이런 식으로 게산하면 결혼하는 사람이 적은 해는 이혼율이 100% 이상이 될 수도 있다.
이런 ‘통계의 오류’라는 허점을 이용해 통계 결과를 의도적으로 조작하기도 한다.
정부예산이나 기업실적, 경제전망 등은 기간과 변수를 어떻게 설정하느냐에 따라 전혀 다른 결과를 이끌어낼 수 있다. 선거를 앞둔 정치인의 지지율은 조사방법과 표본 설정, 질문 내용에 따라 10%에서 90%까지 끌어낼 수 있다.
대통령 선거를 앞두고 전화 설문 조사를 통해 각 후보들의 지지도를 산출하는데, 여기에도 오류가 숨어있다. 전화를 받는 사람은 자신이 좋아하는 후보를 말하지만, 정작 그가 투표하지 않을 수 있기 때문이다. 이때 전화받은 사람의 응답은 무의미해진다.
통계 오류로 돌이킬 수 없는 사건이 일어나기도 했다. 1986년 1월 28일 미국 우주왕복선 챌린저호가 발사된 지 73초 만에 폭발해 우주비행사 7명이 전원 숨지는 사고가 발생했다. 이 처참한 광경은 TV를 통해 전 세계로 생중계돼 많은 사람들이 큰 충격을 받았다. 폭발 사고의 진상을 밝히던 조사팀은 발사할 때 사용되는 고체로켓 모터의 접합부위에 이상이 있음을 발견했는데, 이 사건 뒤에는 ‘표본 선택 편의’라는 통계적 오류가 숨겨져 있었다. ‘표본 선택 편의’는 전체를 아우르지 못하는 표본을 선정해 발생하는 잘못된 결과를 가리키는 통계학 용어다. 우주왕복선이 이륙하려면 두 개의 고체로켓 모터가 필요하다. 챌린저 호는 로켓 모터를 각각 네 부분으로 분해해 케네디우주센터로 옮긴 뒤 다시 조립해 로켓 동체에 연결했다. 발사 당일의 기온은 섭씨 영하 0.56도로, 과거 기록상 최저 기온이었던 11.7도보다 12도 이상 낮았다. 챌린저호 발사 전날 밤, 일부 관계자들은 고체로켓 모터의 접합부위를 염려해 우주왕복선 발사를 연기해야 한다고 주장했다. 낮은 온도로 인해 로켓 모터와 동체 접합에 이상이 발생할지 모른다고 우려했던 것이다. 이들은 실제 1985년 1월 24일에 발사된 우주왕복선 자료를 근거로 자신들의 주장을 뒷받침했다. 과거 기록상 최저 기온(11.7℃)이었던 이날의 발사는 비록 성공적이었지만 기록상 가장 많은 3곳에서 접합 이상이 발견됐던 것이다. 반면 발사를 강행하자고 주장한 사람들은 과거에 발견된 접합 이상의 수와 기온을 나타낸 그래프를 제시했다. 하지만 이 그래프는 기온과 접합 이상 사이의 관계를 명확하게 보여주지 못했다. 특히 문제가 되는 1985년 1월 24일의 발사 자료를 빼고 본다면 오히려 기온이 낮을수록 접합 이상은 감소하는 것처럼 보였다. 결국 발사를 강행하기로 결론을 내렸다. 알고 보니 논쟁에 참여한 이들은 접합 이상이 전혀 발견되지 않았던 발사자료를 포함하지 않았다. 이 자료를 포함해 접합 이상의 수와 기온의 관계를 그래프로 나타내면 명확한 추세를 발견할 수 있다. 즉 온도가 낮아지면 접합이상이 증가한다는 상관관계가 나타나는 것이다. 이를 간과하지 않았다면 처참한 사고를 막을 수 있었을 것이다.
이제까지 다양한 통계의 오류들을 살펴봤다. 하지만 여기서 정확히 짚고 넘어가야 할 사실은 통계가 잘못된 게 아니라 통계 해석 과정이 잘못됐다는 점이다. 누구나 오류를 범할 수 있지만 의도적으로 통계를 조작해 결과를 바꾸는 경우는 지양해야 한다. 또 기간과 변수, 표본 등을 정확히 설정하고 문항에 맞는 세부 요소를 고려해야 통계를 제대로 이용할 수 있을 것이다.
—————-
독일 여성 28만명 조사 – 유방 촬영술 유방암 예방 효과, 0.1%를 25%로 잘못 해석해
美 에이즈 검사의 비극 – 양성반응 발병률 절반 정도인데 통보받은 22명 중 7명이 자살
한국, 정확한 실태 파악도 안 돼… “의대 통계교육 강화해야” 지적
가끔 외국 병원들이 건강검진 때 유방 X선 촬영을 하면 유방암 사망자가 25% 준다고 홍보하는 경우가 있다. 사람들은 여성 100명 중 유방암 사망자를 25명이나 줄인다고 생각한다. 하지만 이는 통계를 잘못 해석한 오해일 뿐이다. 실제 줄어든 사망률은 불과 0.1%다.
황승식 인하대 의대 교수는 최근 서울대 의대에서 한 강연에서, 미국과 독일 병원에서 통계의 맥락을 몰라 벌어지는 해프닝과 사고를 모아 발표했다. 황 교수는 “의사들이 통계에 무지한 ‘통계맹(盲)’이어서 각종 질병 통계의 정확한 의미를 모르는 경우가 많다”며 “국내에서는 아직 정확한 실태조차 파악되지 않아 우려된다”고 말했다.
◇백분율 0.1%가 25%로 둔갑
독일에서 여성 28만명을 조사했더니 유방 촬영술을 받지 않은 여성은 1000명당 4명이 유방암으로 사망했지만, 유방 촬영술을 받은 여성은 1000명당 사망자가 3명에 그쳤다. 유방 촬영술이 4명의 유방암 사망자에서 1명을 줄였으니, 유방 촬영술이 4분의 1에 해당하는 25%의 예방 효과가 있다고 주장한 것이다. 이는 완벽한 통계의 오류다. 유방 촬영술로 유방암 예방 효과를 입은 여성은 1000명당 1명이니, 백분율로는 25%가 아닌 0.1%에 불과하다.
이미지를 클릭하시면 그래픽 뉴스로 크게 볼 수 있습니다. / 조선닷컴
이런 내막을 알지 못하면 1000명이 유방 촬영술을 받으면 250명이 예방 효과를 입는 것으로 오해한다. 실제로 독일의 산부인과 의사 150명에게 유방암 촬영술로 유방암 예방 효과가 25%에 달한다면, 유방암 사망자가 몇 명이나 감소하는지를 묻자 66%는 1명이라고 정확하게 답변했지만, 16%는 25명으로, 15%는 250명이 준다고 답변했다.
건강검진의 통계가 지닌 올바른 의미를 모르면 의료비 증가는 물론이고 또 다른 병까지 일으킬 수 있다. 전립샘암의 진단법인 PSA가 대표적인 예이다.
미국 암예방협회(PSTF)에 따르면, 미국 55~69세 남자를 대상으로 피검사의 일종인 PSA를 실시하면 전립샘암으로 추정되는 양성반응을 보인 사람이 1000명당 210~230명으로 나온다. 좀 더 자세한 검사를 위해 요도 조직을 떼 검사했더니 양성반응을 보인 사람 절반에 해당하는 100~120명이 오진(誤診)으로 판명 난다. 이미 돈은 돈대로 들고 조직 검사에서 감염·통증·출혈·심리적 불안을 겪은 뒤였지만, 소용이 없다.
PSA 검사를 거쳐 전립샘암 환자로 판명 난 사람 중에 사망자는 4~5명이다. 문제는 PSA 검사를 받지 않고 전립샘암으로 사망하는 숫자도 이와 비슷한 1000명당 5명이라는 데 있다. 미국 암예방협회는 급기야 2011년 남성의 PSA 검사는 조기 진단 효과로 얻는 이익보다 경제적 부담과 부작용이 더 크기에 시행하지 말 것을 권고하는 성명서를 발표했다.
◇에이즈보다 무서운 통계맹
통계맹이 초래한 더 끔찍한 예도 있다. 1987년 미국에서 열린 한 에이즈 학술대회에서 미 상원의원인 로톤 차일스(Chiles)는 에이즈 검사에서 양성반응을 보인 22명 중 7명이 좌절해 자살한 사례를 발표했다.
하지만 전문가들은 검사에서 양성반응이 나왔어도 실제로 에이즈가 발병하는 경우는 절반에 불과하다고 본다. 이렇게 오차가 큰 이유는 에이즈 발병률이 낮기 때문이다. 동성애 남성이 에이즈에 걸리기 쉽다고 하지만, 마약 복용이나 주사기 사용을 하지 않는 경우엔 1만명당 실제 에이즈에 걸린 사람은 1명에 그친다. 결국 22명 중에 실제 에이즈 환자는 11명 정도였다고 볼 수 있다. 어쩌면 자살한 7명 모두가 에이즈 환자가 아니었을 수도 있었다. 의사들이 양성반응이 지닌 통계적 의미를 환자에게 적절하게 설명했다면 막을 수 있는 비극이었다.
2008년 국제학술지 ‘공공이해의 심리과학’에는 백분율을 숫자로 환산하거나 숫자를 백분율로 환산하는 단순한 계산식 세 문제를 정확하게 답변한 미국 의사가 72%에 그쳤다는 논문이 발표됐다. 황승식 교수는 “의사의 통계맹은 국내 상황도 별반 다르지 않을 것”이라며 “지금이라도 의대의 통계 교육을 강화해야 한다”고 말했다. 또 “의사가 정확한 통계 지식이 있어도 환자에게 세세히 설명할 시간이 없는 국내 종합병원의 구조도 바꿔야 한다”고 지적했다.
————–
정보출처 : BRIC 소리마당
본 글은 소리마당의 로미오님이 올려주신 통계와 관련된 글을 모아서 올립니다.
1. 1626년 네덜란드 총독 Minuit는 원주민 인디언으로부터 지금의 뉴욕 시 Manhattan을 당시의 화폐가치 24달러에 매입했습니다. 이는 인류 역사상 최고의 Bargain으로 전해지고 있는데, Minuit가 Manhattan을 구입하는 대신, 24달러를 1626년부터 2008년까지 고정 이자율 7%을 적용해서 1년에 한번씩 복리 계산하는 방식으로 여태까지 은행에 예금했다면 지금 그 돈으로 Manhattan의 몇 분의 일을 살 수 있을까요? (연이율 7%는 실제로 1626년부터 2008년까지의 연평균 시장 이자율입니다. 그리고 계산을 하다 보면 모순점이 발견됩니다. 그 모순을 일으키는 원인은 무엇일까도 생각해 보십시오.)
답변 ==> 복리로 계산한 원리합계금의 공식 S=A*[(1+r)]^n에 A=24, r=0.07, n=382를 대입한 결과 S= 24*[(1+0.07)^382] 달러를 계산하면 그 액수는 무려 4조 달러가 넘고 이는 현재 Manhattan뿐 아니라 뉴욕 인근의 땅과 건물 전체를 몇 번 사고도 남는 돈입니다. 오랜 기간 동안 예금을 복리로 계산하면 상상을 초월하는 금액을 얻을 수 있다는 예의 전형입니다. 그렇다면 Minuit은 그 당시에 바가지를 쓴 걸까요? 물론 그것도 아니지요. 하지만 지금까지 원리금을 꼬박꼬박 은행에 예금했다면 지금쯤은 매우 큰 돈이 되었을 거란 사실엔 변화가 없습니다. 4조 달러가 넘게 나온 계산의 오류는 연이율 7%는 실제로 1626년부터 2008년까지의 시장 이자율의 산술평균이고, 복리 계산을 하는 경우엔 기하평균을 써야 하기 때문입니다. 1626년부터 2008년까지의 시장 이자율의 기하평균은 연 7%보다 훨씬 작습니다. 그러니까 위 문제에서 택한 계산 방식으로 얻은 금액은 실제 Minuit이 저금했을 때의 원리금보다 훨씬 큰 금액입니다.
2. 어느 선거에서 A, B, C 세 후보가 출마했습니다. 이 중에서 유권자 다수의 지지를 얻는 후보가 당선됩니다. 모든 유권자들이 자신의 선호를 결정하고 투표에 임했습니다. 두 차례로 나눠서 행해진 투표에서, 우선 후보 A와 B를 놓고 유권자들이 투표한 결과 A후보가 과반수 이상을 얻어 승리했습니다. 이제 후보 A와 C를 놓고 투표한 결과 C후보가 과반수 이상을 얻어 승리했습니다. 이것으로 A, B, C 세 후보 중 C후보가 가장 많은 유권자의 지지를 얻었다고 생각해도 될까요?
답변 ==>두번째 문제의 정답은 “C후보가 가장 많은 유권자의 지지를 얻었다고 생각해서는 안 된다”입니다. 이 예는 콩도르세 역설이라 불리며, 20세기의 가장 뛰어난 경제학자 중 하나인 Kenneth Arrow의 1951년도 역작 ‘Social Choice and Individual Values’에 나오는 내용으로 그 주제는 이후 폭발적인 후속 연구로 이어졌습니다. 아주 간단한 예로서 그 지역의 전체 유권자는 3000명이며, 단 세가지 부류로 나눠져 있고 그 중 1400명의 선호는 A>B>C 순이고, 1000명의 선호는 B>C>A 순이고, 나머지 600명의 선호도는 C>A>B라고 가정해 보겠습니다. 이 경우 2번 문제에서와 같이 다수결 투표를 하면 후보 C가 당선됩니다. C후보의 지지도는 A후보의 절반도 안되는데도 말입니다. 이 경우 또 하나의 문제점은 투표 순서를 바꾸면 당선되는 후보가 바뀝니다. 다수결의 문제점을 지적할 때 많이 드는 예입니다.
3. 각각의 인구가 40만인 도시 A와 B가 있습니다. A시에서는 매년 약 5000명이 사망하고, B시에서는 매년 약 7500명이 사망합니다. 이 데이터로부터 A시가 B시보다 건강하게 살아가기에 좋은 장소라는 생각이 들었고, 좀 더 자세한 것을 알아보기 위해서 10세 미만, 10대, 20대, … , 80세 이상 각 연령대 별로 사망률을 조사해봤더니 오히려 A시가 B시보다 모든 연령대에서 사망률이 더 높았습니다. 어째서 이런 현상이 가능할까요?
답변 ==> 세번째 문제는 도시B가 젊은이들을 위한 일자리가 많지 않은, 은퇴한 노인들이 모여 사는 평화로운 실버타운형 도시인 경우에 해당됩니다. 두 도시의 연령대별 분포는 확연히 다르고, 노인들이 많이 사는 B도시의 매년 사망자수가 많은 것은 당연합니다. 이런 경우는 누군가가 의도적으로 통계자료를 악용해서 한쪽만을 강조했을 때, 전체 상황을 인식 못하는 사람은 속을 수밖에 없습니다. 무소의님의 댓글에서 설명하셨다시피 이는 개별 항목의 통계적 결과와 전체 항목의 통계적 결과가 다르게 나타나는 현상인 SIMPSON’S PARADOX에 해당합니다.
4. 미국의 잡지 Literary Digest는 1932년 후버와 루즈벨트가 맞붙은 대통령 선거에서 전화 번호부, 자동차 소유주 명부, Digest지 구독자 명부 등을 통해서 무려 1000만 명을 표본으로 한 여론조사에서 루즈벨트가 57% 대 40%의 차이로 당선되리라는 것을 정확하게 맞췄습니다. 4년 후 루즈벨트와 랜던이 맞붙은 1936년 대선에서도 같은 방법으로 1000만 명에게 설문조사 엽서를 보냈고 그 중 240만 명으로부터 답장을 받았습니다. 이 설문조사를 토대로 랜던 지지율 57%, 루즈벨트 지지율 27%를 예측했으나 정작 투표결과 루즈벨트 61%, 랜던 37%라는 정 반대의 결과가 나왔습니다. 이는 역대 최악의 예측으로 아직까지 전해집니다. 무엇이 Digest지의 여론조사 결과의 오류를 가져왔을까요?
답변 ==> 네번째 문제는 통계에서 표본추출의 어려움을 설명할 때 자주 드는 유명한 예입니다. 대통령에 당선된 후에 루즈벨트는 공황타개 뉴딜 정책의 일환으로 소득세와 상속세를 대폭 올렸습니다. 소득세의 상한은 79%까지 상속세의 상한은 77%까지 올려서 부유층 소득의 거의 전부를 세금으로 거뒀습니다. 민주당을 지지하던 상류층은 루즈벨트를 배신자라고 생각해서 일괄적으로 지지를 철회했습니다. 1936년에 전화나 자동차를 소유하거나 Literary Digest지를 구독할 정도의 사람들은 상류층에 속하므로 투표자 전체를 대표하는 표본이 될 수 없었습니다. 미국 선거민의 계층간 분화가 시작된 것은 뉴딜 정책이 시작된 이후입니다. 1936년 선거에서는 1932년에 민주당을 지지했던 상류층의 대부분이 공화당 지지로 돌아섰으므로 Digest지의 여론조사결과는 공화당 후보 랜던에게 일방적으로 우호적이었던 것입니다. 그 이후 Literary Digest는 독자들의 신뢰를 잃었고 2년 후 Time에 흡수합병 되었습니다.
이와 비슷한 오류로는 서울 근교에 사는 가정의 아버지가 아이들과 일주일에 몇 시간을 함께 지내는가를 알아보기 위해서 에버랜드를 방문하는 가족들을 대상으로 정문 앞에서 설문조사를 하는 경우입니다. 모집단과 동일한 분포를 갖는 표본을 어떻게 찾는가는 통계학에서 예나 지금이나 가장 중요하고 어려운 문제입니다.
5. 고등학교에 다니는 A군이 방과후 집에서 공부하지 않는 것에 속이 상한 부모님은 A군을 밤 늦게까지 하는 인근 종합 반 학원에 보냈습니다. 학원에 다니자마자 A군은 성격도 명랑해졌고, 학교 수업에도 충실해졌고, 한달 후 중간평가에서도 지난 번보다 훨씬 좋은 성적을 얻었습니다. A군의 어머니는 감사하다는 뜻을 전하러 그 학원의 원장을 만났습니다. 그런데 원장님의 말은 A군이 그 동안 학원 수업시간 내내 잠만 잤다는 거였습니다. A군의 어머니는 충격을 받았지만 그 동안 A군에게 무슨 변화가 있었던 가를 알아냈습니다. 무엇이 A군에게 변화를 가져다 줬을까요?
답변 ==> 다섯번째 문제의 핵심은 우리가 당연히 받아들이는 인과관계도 실제로는 성립하지 않는 경우를 예로서 보여드린 것입니다. 우리는 겉으로 드러나는 현상을 인과관계로 너무나도 확신한 나머지 숨어있는 실제 원인을 간과하는 경우는 수 없이 많습니다. 그 편견이 너무 심해서 우리가 믿었던 인과관계가 사실이 아닌 것으로 들어난 후에도 평정을 찾지 못해서 실제 원인을 놓치는 경우도 허다합니다. A군은 머리가 좋고 체력이 약한 학생으로 그 동안 집에서 밤 늦게까지 컴퓨터 게임에 중독되어 있었습니다. 그 당시에는 집에서의 피로가 싸여서 학교 수업시간에 졸든지, 집중을 못하든지 했습니다. 학원에서 충분한 수면을 취하고 또 집에서 충분한 수면을 취하니까 A군은 학교 수업시간에 졸지 않고 수업을 열심히 들을 수 있었고 그 때문에 성적이 올라간 것입니다. 어머니가 늦게라도 상황을 제대로 파악했으니 아마도 앞으로 A군에게는 더 좋은 성과가 기다리고 있을 겁니다.
(“밤에 공부를 안 한다 -> 학원에 보냈다 -> 성적이 올랐다”라는 현상이 “그러므로 학원에서 공부를 열심히 했다”라는 결론으로 연결되는 것은 아니지요. 하지만 사람들은 쉽게 그런 결론을 내리는 경우가 아주 많습니다. 경제정책효과분석에서 이런 식의 오류를 흔히 저지릅니다. –> 무소의님 댓글 중)
실제의 경우 숨어있는 원인을 찾는 건 극히 어렵습니다. 거기에다 일정량만큼 비가 오면 곡식이 잘 자라지만 그 이상 오면 오히려 곡식이 자라는 데 악영향을 주는 이른바 ‘임계점 효과’ 도 현실에서 자주 벌어지므로 더욱 주의해야 합니다. 미국에서 70년대 갑자기 나타난 여성의 고학력 현상, 여성의 사회 진출 현상, 이혼율 급증 현상의 공통된 원인은 ‘피임약의 보급’이라는 숨은 요소였음이 후에 밝혀졌습니다.
6. 예전에 대학생들이 농담 삼아 즐겨 하던 말이 대학교에서 수업하는 날은 일년 중 하루도 없다는 넌 센스 논리입니다.
“1년 365일 중에서 잠자는 시간 1/3에 해당하는 122일을 빼고, 매일 밥 먹는데 1시간 반이 걸리므로 1년 합계 22일을 빼면 221일이 남는다. 여기에 여름방학과 겨울방학을 합친 150일을 빼고 나면 71일이 남는데, 여기서 매주 토요일 일요일을 빼면 수업을 하는 날은 하루도 없다는 결론에 이른다.”
답변 ==> 여섯번째는 우스개 소리 같지만 실제로 우리가 접하는 통계자료에도 이처럼 같이 합산해서는 안 되는 것들이 의도적으로 중복으로 합산돼서 나온 자료들이 많습니다. 예를 들어 열흘 동안 노동자들이 파업한 현대자동차에서 파업으로 인한 손실 총액이 조 단위가 된다고 발표하는 것도 이와 유사한 경우에 해당됩니다. 이런 경우는 거의 대부분이 몰라서가 아니라 의도적으로 수치를 조작하는 것입니다.
7. 미국의 대통령 링컨과 케네디는 100년의 시간을 두고 같은 일을 당했습니다. 링컨은 1846년 국회에 입성했고 케네디는 1946년에 입성했습니다. 링컨은 1860년에 대통령에 당선됐고, 케네디는 1960년에 당선됐습니다. 링컨과 케네디 모두 금요일에 부인 앞에서 피격당했고, 범인은 재판 없이 사살되었습니다. 링컨은 포드 극장에서, 케네디는 포드차가 만든 링컨에서 암살당했습니다. 링컨의 암살자는 1839년에 태어났고 케네디의 암살자는 1939년에 태어났습니다. 당시 링컨에겐 케네디라는 비서가 있었고, 케네디는 링컨이라는 비서가 있었습니다. 링컨의 후임 대통령 존슨은 1808년에 태어났고, 케네디의 후임 대통령 존슨은 1908년에 태어났습니다. 링컨의 아들의 이름은 로버트와 에드워드이고 케네디의 동생의 이름은 로버트와 에드워드입니다.
답변 ==> 일곱번째는 데이터를 살펴보면 상관관계인 것 같지만 실제로 그 데이터는 우연의 결과에 의해서 만들어진 경우입니다. 때때로 실제 데이터 분석에서 이런 경우를 정확히 알아내는 것은 매우 어렵습니다. 우연의 일치를 바탕으로 잘못된 결론에 도달하는 경우도 허다합니다. 데이터를 다루는 사람이 한 수 더 떠서 거기에다 숨겨진 의미까지 덧붙인다면 상황은 통제불능이 됩니다. 예를 하나 들자면 “1973년에 세계에서 가장 높은 빌딩인 시어스타워의 높이를 1913년에 세계에서 가장 높은 건물은 울워스빌딩의 높이로 나누면 1.836이라는 숫자가 나오는데, 입자물리에서 양성자의 질량은 전자의 질량의 1836배입니다. 그러므로 이 두 건물에는 외계인의 메시지가 남겨져 있습니다.” 이런 식의 결론처럼 태양계와 행성의 크기, 입자의 크기 그리고 그들간의 온갖 잡다한 비율에 원주율, 제곱근 등을 결합한다면 우연히 일치하는 수는 어디서든지 쉽게 발견될 수 있습니다.
빅토리아 시대의 영국 총리 Benjamin Disraeli 가 남긴 말들 중에 유명하게 전해지는 하나가 “There are three kinds of lies: lies, damned lies, and statistics.”입니다. 그가 무슨 연유로 통계학이 본격적으로 정립되기 전인 19세기에 그런 말을 남겼는지 모르지만, 통계가 전성기를 맞고 있는 21에는 통계학에 대해서 지식이 없는 일반사람이, 그의 지능과 무관하게, 반 쪽짜리 통계 그리고 의도적으로 잘못 해석된 통계에 기만 당할 위험이 더더욱 크다고 할 수 있습니다. 그리고 통계나 확률에 대한 문제는 상식이나 직관이 전혀 도움이 안 되는 경우가 많습니다. 흔히 드는 예로는 “모인 사람 중 두 사람의 생일이 일치할 확률이 그렇지 않을 확률보다 더 크려면 그 모임엔 최소한 몇 명이 있어야 할까?” 라는 질문의 답은 직관보다 작은 23명입니다.
——————————————————————————–
01 변리사는 ‘너무’ 억울하다
02 개신교도 수는 정말 1200만 명일까?
03 흡연율을 둘러싼 진실게임
04 숫자 앞에만 서면
05 우리는 왜 숫자에 현혹되는가
06 새로운 것을 보여주는 통계의 힘
07 똑 떨어지는 숫자가 좋다
08 숫자 풀어쓰기
09 감성에 압도된 수치 읽기
10 7은 행운의 숫자인가
11 ‘이태백’의 진실
12 두 쌍 중 한 쌍이 이혼하는 나라?
13 감추고 싶은 노인 자살
14 피라미드 사기와 숫자놀음
15 평균의 함정
16 평균값 물타기
17 연평균 증가율에 대한 오해
18 경제학자들의 거짓말
19 당신은 중산층인가?
20 평균의 함정 벗어나기
21 부동산, 주식, 채권 가운데 뭐가 나을까?
22 장기투자가 해답이다?
23 초등학생 2.5퍼센트가 성경험?
24 한국인을 정말 책을 안 읽을까?
25 건설회사에 집값 전망을 묻다
26 질문의 마술
27 우문우답
28 사장님과 싸장님
29 너무도 당연한 ‘사상최고’
30 낯선 수치가 부르는 착각
31 작성기관에 따라 다른 통계 읽기
32 무엇과 비교할 것인가
33 비교의 정석
34 대졸 초임, 한국이 일본보다 많다?
35 차이와 차별은 다르다
36 기저효과
37 더 큰 숫자 찾아내기
38 명목지표와 실질지표
39 달러 가치도 변한다
40 삼겹살이 잘 팔리는 계절
41 내 맘대로 추산하기
42 원인은 딴 곳에 있다
43 뒤집힌 인과관계
44 증가율의 속임수
45 특수요인이 숨어 있다
46 이념적 통계
47 국가의 통계 왜곡
48 분모 바꿔치기
49 감동없는 숫자들
50 순위의 허실
키워드에 대한 정보 통계 오류
다음은 Bing에서 통계 오류 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.
이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!
사람들이 주제에 대해 자주 검색하는 키워드 gentleman league 통계는 새빨간 거짓말? 150917 EP.8
- 젠틀맨리그
- 이진우
- 경제
- 장기하
- 정재형
- 교양
- 거짓말
- 통계
gentleman #league #통계는 #새빨간 #거짓말? #150917 #EP.8
YouTube에서 통계 오류 주제의 다른 동영상 보기
주제에 대한 기사를 시청해 주셔서 감사합니다 gentleman league 통계는 새빨간 거짓말? 150917 EP.8 | 통계 오류, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.