[경제통계학] 1. 통계학과 자료-2 통계학과 자료
- 대표성 문제
- 1993년 LA 시장 선거 여론조사
- 1936년 미국 대통령 선거 결과 예측
- 생존편의
- 지난 20년간 우리나라 주식시장에 투자했으면 연평균 수익률
- 지난 30년간 재벌계열사와 비재벌계열사의 주식시장 성과
- Final Four, Five Years Later
- 자료: 변수의 종류
- 자료: 척도의 종류
- 실험연구
- 소아마비 재단 실험
- 경험연구
- 혼동요인
- 심슨의 역설
- 통계학을 대하는 자세
1. 대표성 문제
- “거리엔 괜찮은 사람들이 많은데 소개를 받으러 나온 자리엔 어디서 이런 사람만 나오는 거야.”
→ 소개 받으러 나온 표본은selected sample
. 역선택된 표본이니까 거리에 평균시세를 반영 못함 - “서울이라고 못난이가 없을 리야 없겠지만 대처에서는 못난이들이 거리에 나와 행세를 하지 못하고, 시골에선 아무리 못난이라도 마음 놓고 나와 다니는 때문인지, 못난이는 시골에만 있는 것처럼 흔히 시골에서 잘 눈에 뜨인다.”
- 카지노에서 잃은 사람들은 속상해서 그냥 조용히 다니고 있고 딴 사람만 큰 소리로 돈 땄다고 얘기하니까 카지노 한 번도 안 가본 사람들은 돈을 벌 수 있다고 생각
1993년 LA 시장 선거 여론조사
- all registered voters vs the likely voters
- the likely voters 대상으로 한 여론조사 결과가 맞았음
- 모집단을 대표하는 표본은 투표할 것 같은 유권자들
1936년 미국 대통령 선거 결과 예측
- 1930년대 초반 미국이 대공황을 거치면서 민주당의 루즈벨트는 세금을 걷어서 서민들에게 일자리를 제공한다는 공약 내세움
- 갤럽은 루즈벨트의 승리를 예측 (예측 56% → 실제 62%)
- 갤럽은 다이제스트사의 예측까지 예측 (예측 44% → 실제 43%)
- 전화번호부, 클럽 명부에서 표본 천만 명 선택 (부자들의 전유물, 부자들은 루즈벨트 싫어함)
- 표본 크기大, 대표성 없는 표본
2. 생존편의(Survivorship Bias)
살아있는 사람은 죽은 사람을 대표하지 못한다.
지난 20년간 우리나라 주식시장에 투자했으면 연평균 수익률은?
- 현재 우리나라 거래소에 상장되어 있는 종목 100개를 무작위로 뽑아서 지난 20년 동안 우리나라 주식시장에 투자했으면 수익률이 어느 정도 일지 조사
- 실제 20년 동안에 투자자의 투자성과를 과대평가 할 가능성 높음
- 상장폐지 되었거나 망했거나 퇴출된 기업들 무시됨
- 20년 전으로 돌아가서 주식시장에 상장되어 있는 종목들에 대해서 분산투자, 리밸런싱. 투자한 회사 망하면 돈 없어진 것으로 치고 계산하면 연평균 수익률 알 수 있음
지난 30년간 재벌계열사와 비재벌계열사의 주식시장 성과는?
- 30년 전으로 타임머신을 타고 돌아가서 1원을 상장되어 있는 재벌계열사에, 다른 1원을 비재벌계열사에 시가총액에 비례해서 분산투자
- 공정거래위원회에서 공정거래법 시행 이후에 지정한 대기업 집단 이름을 가진 회사는 재벌 계열사로 정의 (자의적 기준)
- 3개월마다 성과 재평가 (투자 회사 망하면 손해, 새로운 기업 들어오면 포함시켜서 가치 업데이트하고 재배분해서 계산)
-
현재 생존한 기업 기준으로 계산하면 재벌 계열사 235개, 비재벌 계열사 550개 누락됨
- 모든 기업 대상, 시가총액 비례해서 자산분배
- 비재벌(red), 재벌(blue)
- 90년대 중반까지는 비재벌계열사 우세, 90년대 중반 이후에는 재벌계열사 우세
- 전기간 생존한 기업 대상, 1/n로 자산분배
- 전기간 비재벌계열사 우세
- 재벌 vs 비재벌 연간 수익률 비교
- 올바르게 분석하면 90년대 중반 이후부터 재벌계열사 수익률이 더 높아짐
- 시기별 재벌 vs 비재벌 평균 수익률 격차
- 기업규모, 진입/퇴출 고려 여부에 따라 결과 차이 大
- 비재벌 대비 재벌의 상대적인 성과가 좋아지는 이유는 알 수 없음
- 그림을 통해 알 수 있는 팩트는, 비재벌 대비 재벌의 상대적인 성과가 점차 개선되고 있다.
3. Final Four, Five Years Later
- 1987년 미국 NCAA 대학농구 토너먼트 Final Four 팀
- Indiana, Syracuse, UNLV, Providence
- 1992년 NY Times 기자가 5년 전 Final Four에 진출했던 4개 대학 53명 선수들의 life 추적
종적자료
- Players Find Glory is Replaced by Reality
- 한 때 최고에 있던 화려한 선수들의 모습이 천지차이
4. 자료: 변수의 종류
- 양적변수(quantitative): 나이, 가족의 수, 가구소득
-
질적변수(qualitative): 혼인상태, 취업여부 (수치로 코딩해서 사용)
- 이산변수(discrete): 가족의 수 ex) 2,3,4
- 연속변수(continuous): 가구소득 ex) $2340,$3000 (이산적으로 근사시켜 표현)
5. 자료: 척도의 종류
- 명목척도(nominal)
- 명칭 의미有
- 순서, 간격, 배율, 연산 X (0, 1은 다르다는 것을 의미)
- ex) 미혼(0), 결혼(1)
- 순서척도(ordinal)
- 명칭, 순서 의미有
- 간격 의미 X (excellent와 very good의 차이가 very good과 good의 차이와 같지는 않음)
- ex) poor(1), fair(2), good(3), very good(4), excellent(5)
- 간격척도(interval)
- 명칭, 순서, 간격 의미有
- 배율 의미 X (30도가 10도에 비해 3배 덥지 않음)
- ex) 온도
- 비율척도(ratio)
- 명칭, 순서, 간격, 배율 의미有
- 0(nothing)이 정의가 됨
(절대적 원점(absolute zero point))
- ex) 돈
6. 실험연구
- 실험연구 ≠ 경험연구
- 처리집단(treatment group): 특정 처리를 가한 집단
-
통제집단(control group): 처리를 가하지 않은 집단
- 무작위 배정(randomized control)
- 처리집단, 통제집단으로 구분
- 확률에 의존해서 무작위로 배정
- 이중 눈가림(double blindness)
- 피험자, 연구자 모두 처리 여부를 알 수 없게 하고 통계코드로만 처리
- 피험자의 위약효과(placebo effect), 실험자의 자의성 통제
소아마비 재단 실험
소크백신이라는 소아마비 백신이 처음 개발 되었을 때 초등학교 2학년 학생들 대상으로 실험
- 잘못된 통제
- 부모동의서 받아왔으면 백신을 투여, 거부했으면 제외
- 통제집단은 새로운 백신을 투여하지 않은 1학년, 3학년
- 처리집단과 통제집단이 같은 표본에서 무작위로 추출되지 않음
- 잘 된 통제
- 부모동의서 받아왔을 때 처리집단, 통제집단 무작위로 배정
- 학년 구분 X
- 이중 눈가림 실험
- 잘못된 통제 vs 잘 된 통제
- 소아마비 백신의 치료효과가 과소평가됨
- 잘못된 통제 - 25:54 (발병률 1/2 정도 낮춤)
- 잘 된 통제 - 28:71 (발병률 1/3 정도 낮춤)
- But 이것도 통계적으로 통제가 안 된 자료
- 집안형편이 좋은 아이들이 부모동의서를 많이 받았음
→ 통제집단보다 처리집단이 평균적인 가정환경 좋음 - 지저분한 환경에서 자랐으면 오히려 내성이 커서 소아마비 잘 안 걸림
→ 부모가 동의한 좋은 환경의 아이들은 애초에 소아마비에 취약 - 두 집단은 처음부터
비교가능한 집단
이 아님
- 집안형편이 좋은 아이들이 부모동의서를 많이 받았음
- 소아마비 백신의 치료효과가 과소평가됨
7. 경험연구
- 실험이 불가능하므로 관측된 자료를 바탕으로 경험적 연구 진행
- 엉터리 통계 多
- 미국 직업훈련 효과를 파악하기 위해 사회적 실험 진행
- 직업훈련 신청자들 중에 스크리닝 테스트를 통과한 사람 대상으로 동전의 앞이 나온 사람은 훈련, 동전의 뒤가 나온 사람은 집으로 배정
- 훈련받지 않은 사람들은 훈련받은 사람들의 비교집단으로 사용
randomization out
- 랜덤하게 뽑아서 동전의 뒤가 나오면 집으로 아웃
- 두 집단은 스크리닝 테스트를 똑같이 통과, 스스로 훈련 신청했다는 면에서 동등함
- 경험적 연구에서 인과관계 추론 시 문제점
- 경험적 연구에서는 밑에 잠복요인들이 있다가 처리, 결과에 모두 영향을 끼침
- 마치 결과가 처리 때문에 달라진 것처럼 착시현상
혼동요인
통제해야 함- 동질적인 하위집단을
따로따로
비교해야 함 - ex) 흡연자 vs 비흡연자 사망률
- 흡연자 중에는 남성이 많은데, 남성은 여성보다 심장질환에 걸릴 가능성↑
- 남성 흡연자/남성 비흡연자, 여성 흡연자/여성 비흡연자 분리해서 비교
- 동질적인 하위집단을
혼동요인(Coufounding Factor)
- 처리 여부와 관련이 있으면서 동시에 처리집단과 통제집단의 반응에 차별적인 영향을 주는 통제되지 않은 제 3의 요인
- ex) 태아 때 초음파에 노출되면 출생 시 저체중이 초래되는가?
- 태아에 문제가 있다고 느낄 때 초음파 검사를 하는 경향 있음
- ex) 처방을 잘 따르는 순응자가 비순응자보다 사망률이 낮은 것을 근거로 처방이 효과가 있다고 판단할 수 있는가?
- 건강에 훨씬 더 관심이 있고 자신을 더 잘 보살피는 사람이 스스로 순응자가 된다
심슨의 역설(Simpson’s paradox)
- 하위집단에서 관찰된 관계는 하위집단들이 결합되었을 때 그 관계가 바뀌어 나타날 수 있다.
- ex) 수능성적과 학점 간의 관계
- 학과별 집단적 차이를 무시하고 통합해서 분석하면 마치 관계가 없는 것처럼 보임
- 미국의 서부 버클리 대학원에서 여학생 지원자에 대해 차별했나?
- 남학생 지원자 44% 합격, 여학생 지원자 35% 합격
- A학과 합격률 23%, B학과 합격률 53%
- 실제로 여학생들은 어려운 학과로 많이 몰렸고, 남학생들은 쉬운 학과로 많이 몰렸다.
- 각 학과에서 남녀 차별 하지 않았음에도 불구하고 전체적인 합격률 차이 有
- 강남의 오래된 아파트가 새 아파트보다 같은 평수에서 더 비싼가?
- 오래된 아파트는 대단지에 들어가 있고, 새로운 아파트는 대단지가 다 소진됐으니까 소규모 단지에 있음
- 대규모 단지에 있어야 편의시설 등 때문에 값이 비쌈
- 단지규모 별로 따로 분석하지 않으면 아파트 나이와 아파트 가격의 관계가 역전돼서 나타날 수 있음
- 동경대학 프리미엄은 존재하는가?
- 실력도 없는 것들이 자기들끼리 잘 해먹고 끼리끼리 이런 게 마피아 프리미엄
- 학내 사태 때문에 동경대학은 69학번이 없음
- 동경대 갈 수 있는 실력을 가진 사람을 일부러 다른 쪽으로 옮겨온 것 같은 실험과 같음
- 동경대학의 68, 70 학번과 인접우수대학의 69학번을 비교
- 공무원 사회에서는 동경대 프리미엄이 없지 않다.
8. 통계학을 대하는 자세
- 잘못된 모형을 정확하게 푸는 것보다 올바른 부분을 근사적으로 푸는 게 낫다.
- 통계학은 미지의 세계에 대한 안내자이다.
- 통계학은 스포츠와 같다. 토론하는 것보다 실천하는 게 낫다.
- 모든 모형은 틀렸다. 다만, 몇몇 모형은 유용하다.
- 모든 모형은 최대한 단순한 게 좋다. 그렇지만 지나치게 단순해서는 곤란하다.
- Obvious is the most dangerous word in mathematics.
Subscribe via RSS