• 대표성 문제
    • 1993년 LA 시장 선거 여론조사
    • 1936년 미국 대통령 선거 결과 예측
  • 생존편의
    • 지난 20년간 우리나라 주식시장에 투자했으면 연평균 수익률
    • 지난 30년간 재벌계열사와 비재벌계열사의 주식시장 성과
  • Final Four, Five Years Later
  • 자료: 변수의 종류
  • 자료: 척도의 종류
  • 실험연구
    • 소아마비 재단 실험
  • 경험연구
    • 혼동요인
    • 심슨의 역설
  • 통계학을 대하는 자세



1. 대표성 문제

  • “거리엔 괜찮은 사람들이 많은데 소개를 받으러 나온 자리엔 어디서 이런 사람만 나오는 거야.”
    → 소개 받으러 나온 표본은 selected sample. 역선택된 표본이니까 거리에 평균시세를 반영 못함
  • “서울이라고 못난이가 없을 리야 없겠지만 대처에서는 못난이들이 거리에 나와 행세를 하지 못하고, 시골에선 아무리 못난이라도 마음 놓고 나와 다니는 때문인지, 못난이는 시골에만 있는 것처럼 흔히 시골에서 잘 눈에 뜨인다.”
  • 카지노에서 잃은 사람들은 속상해서 그냥 조용히 다니고 있고 딴 사람만 큰 소리로 돈 땄다고 얘기하니까 카지노 한 번도 안 가본 사람들은 돈을 벌 수 있다고 생각


1993년 LA 시장 선거 여론조사

  • all registered voters vs the likely voters
  • the likely voters 대상으로 한 여론조사 결과가 맞았음
  • 모집단을 대표하는 표본은 투표할 것 같은 유권자들


1936년 미국 대통령 선거 결과 예측

  • 1930년대 초반 미국이 대공황을 거치면서 민주당의 루즈벨트는 세금을 걷어서 서민들에게 일자리를 제공한다는 공약 내세움 1
  • 갤럽은 루즈벨트의 승리를 예측 (예측 56% → 실제 62%)
  • 갤럽은 다이제스트사의 예측까지 예측 (예측 44% → 실제 43%)
    • 전화번호부, 클럽 명부에서 표본 천만 명 선택 (부자들의 전유물, 부자들은 루즈벨트 싫어함)
    • 표본 크기大, 대표성 없는 표본



2. 생존편의(Survivorship Bias)

살아있는 사람은 죽은 사람을 대표하지 못한다.


지난 20년간 우리나라 주식시장에 투자했으면 연평균 수익률은?

  • 현재 우리나라 거래소에 상장되어 있는 종목 100개를 무작위로 뽑아서 지난 20년 동안 우리나라 주식시장에 투자했으면 수익률이 어느 정도 일지 조사
  • 실제 20년 동안에 투자자의 투자성과를 과대평가 할 가능성 높음
    • 상장폐지 되었거나 망했거나 퇴출된 기업들 무시됨
  • 20년 전으로 돌아가서 주식시장에 상장되어 있는 종목들에 대해서 분산투자, 리밸런싱. 투자한 회사 망하면 돈 없어진 것으로 치고 계산하면 연평균 수익률 알 수 있음


지난 30년간 재벌계열사와 비재벌계열사의 주식시장 성과는?

  • 30년 전으로 타임머신을 타고 돌아가서 1원을 상장되어 있는 재벌계열사에, 다른 1원을 비재벌계열사에 시가총액에 비례해서 분산투자
  • 공정거래위원회에서 공정거래법 시행 이후에 지정한 대기업 집단 이름을 가진 회사는 재벌 계열사로 정의 (자의적 기준)
  • 3개월마다 성과 재평가 (투자 회사 망하면 손해, 새로운 기업 들어오면 포함시켜서 가치 업데이트하고 재배분해서 계산)
  • 현재 생존한 기업 기준으로 계산하면 재벌 계열사 235개, 비재벌 계열사 550개 누락됨 2

  • 모든 기업 대상, 시가총액 비례해서 자산분배 3
    • 비재벌(red), 재벌(blue)
    • 90년대 중반까지는 비재벌계열사 우세, 90년대 중반 이후에는 재벌계열사 우세
  • 전기간 생존한 기업 대상, 1/n로 자산분배 4
    • 전기간 비재벌계열사 우세
  • 재벌 vs 비재벌 연간 수익률 비교 4'
    • 올바르게 분석하면 90년대 중반 이후부터 재벌계열사 수익률이 더 높아짐
  • 시기별 재벌 vs 비재벌 평균 수익률 격차 5
    • 기업규모, 진입/퇴출 고려 여부에 따라 결과 차이 大
    • 비재벌 대비 재벌의 상대적인 성과가 좋아지는 이유는 알 수 없음
    • 그림을 통해 알 수 있는 팩트는, 비재벌 대비 재벌의 상대적인 성과가 점차 개선되고 있다.



3. Final Four, Five Years Later

  • 1987년 미국 NCAA 대학농구 토너먼트 Final Four 팀
    • Indiana, Syracuse, UNLV, Providence
    • 1992년 NY Times 기자가 5년 전 Final Four에 진출했던 4개 대학 53명 선수들의 life 추적
      • 종적자료
      • Players Find Glory is Replaced by Reality
      • 한 때 최고에 있던 화려한 선수들의 모습이 천지차이



4. 자료: 변수의 종류

  • 양적변수(quantitative): 나이, 가족의 수, 가구소득
  • 질적변수(qualitative): 혼인상태, 취업여부 (수치로 코딩해서 사용)

  • 이산변수(discrete): 가족의 수 ex) 2,3,4
  • 연속변수(continuous): 가구소득 ex) $2340,$3000 (이산적으로 근사시켜 표현)



5. 자료: 척도의 종류

  • 명목척도(nominal)
    • 명칭 의미有
    • 순서, 간격, 배율, 연산 X (0, 1은 다르다는 것을 의미)
    • ex) 미혼(0), 결혼(1)
  • 순서척도(ordinal)
    • 명칭, 순서 의미有
    • 간격 의미 X (excellent와 very good의 차이가 very good과 good의 차이와 같지는 않음)
    • ex) poor(1), fair(2), good(3), very good(4), excellent(5)
  • 간격척도(interval)
    • 명칭, 순서, 간격 의미有
    • 배율 의미 X (30도가 10도에 비해 3배 덥지 않음)
    • ex) 온도
  • 비율척도(ratio)
    • 명칭, 순서, 간격, 배율 의미有
    • 0(nothing)이 정의가 됨 (절대적 원점(absolute zero point))
    • ex) 돈



6. 실험연구

  • 실험연구 ≠ 경험연구
  • 처리집단(treatment group): 특정 처리를 가한 집단
  • 통제집단(control group): 처리를 가하지 않은 집단

  • 무작위 배정(randomized control)
    • 처리집단, 통제집단으로 구분
    • 확률에 의존해서 무작위로 배정
  • 이중 눈가림(double blindness)
    • 피험자, 연구자 모두 처리 여부를 알 수 없게 하고 통계코드로만 처리
    • 피험자의 위약효과(placebo effect), 실험자의 자의성 통제


소아마비 재단 실험

소크백신이라는 소아마비 백신이 처음 개발 되었을 때 초등학교 2학년 학생들 대상으로 실험

  • 잘못된 통제 6
    • 부모동의서 받아왔으면 백신을 투여, 거부했으면 제외
    • 통제집단은 새로운 백신을 투여하지 않은 1학년, 3학년
    • 처리집단과 통제집단이 같은 표본에서 무작위로 추출되지 않음
  • 잘 된 통제 7
    • 부모동의서 받아왔을 때 처리집단, 통제집단 무작위로 배정
    • 학년 구분 X
    • 이중 눈가림 실험
  • 잘못된 통제 vs 잘 된 통제 8
    • 소아마비 백신의 치료효과가 과소평가됨
      • 잘못된 통제 - 25:54 (발병률 1/2 정도 낮춤)
      • 잘 된 통제 - 28:71 (발병률 1/3 정도 낮춤)
    • But 이것도 통계적으로 통제가 안 된 자료
      • 집안형편이 좋은 아이들이 부모동의서를 많이 받았음
        → 통제집단보다 처리집단이 평균적인 가정환경 좋음
      • 지저분한 환경에서 자랐으면 오히려 내성이 커서 소아마비 잘 안 걸림
        → 부모가 동의한 좋은 환경의 아이들은 애초에 소아마비에 취약
      • 두 집단은 처음부터 비교가능한 집단이 아님



7. 경험연구

  • 실험이 불가능하므로 관측된 자료를 바탕으로 경험적 연구 진행
  • 엉터리 통계 多
  • 미국 직업훈련 효과를 파악하기 위해 사회적 실험 진행
    • 직업훈련 신청자들 중에 스크리닝 테스트를 통과한 사람 대상으로 동전의 앞이 나온 사람은 훈련, 동전의 뒤가 나온 사람은 집으로 배정
    • 훈련받지 않은 사람들은 훈련받은 사람들의 비교집단으로 사용
    • randomization out
      • 랜덤하게 뽑아서 동전의 뒤가 나오면 집으로 아웃
      • 두 집단은 스크리닝 테스트를 똑같이 통과, 스스로 훈련 신청했다는 면에서 동등함
  • 경험적 연구에서 인과관계 추론 시 문제점 11
    • 경험적 연구에서는 밑에 잠복요인들이 있다가 처리, 결과에 모두 영향을 끼침
    • 마치 결과가 처리 때문에 달라진 것처럼 착시현상
    • 혼동요인 통제해야 함
      • 동질적인 하위집단을 따로따로 비교해야 함
      • ex) 흡연자 vs 비흡연자 사망률
        • 흡연자 중에는 남성이 많은데, 남성은 여성보다 심장질환에 걸릴 가능성↑
        • 남성 흡연자/남성 비흡연자, 여성 흡연자/여성 비흡연자 분리해서 비교


혼동요인(Coufounding Factor)

  • 처리 여부와 관련이 있으면서 동시에 처리집단과 통제집단의 반응에 차별적인 영향을 주는 통제되지 않은 제 3의 요인
  • ex) 태아 때 초음파에 노출되면 출생 시 저체중이 초래되는가?
    • 태아에 문제가 있다고 느낄 때 초음파 검사를 하는 경향 있음
  • ex) 처방을 잘 따르는 순응자가 비순응자보다 사망률이 낮은 것을 근거로 처방이 효과가 있다고 판단할 수 있는가?
    • 건강에 훨씬 더 관심이 있고 자신을 더 잘 보살피는 사람이 스스로 순응자가 된다


심슨의 역설(Simpson’s paradox)

  • 하위집단에서 관찰된 관계는 하위집단들이 결합되었을 때 그 관계가 바뀌어 나타날 수 있다.
  • ex) 수능성적과 학점 간의 관계
    • 학과별 집단적 차이를 무시하고 통합해서 분석하면 마치 관계가 없는 것처럼 보임
  • 미국의 서부 버클리 대학원에서 여학생 지원자에 대해 차별했나? 12
    • 남학생 지원자 44% 합격, 여학생 지원자 35% 합격
    • A학과 합격률 23%, B학과 합격률 53%
    • 실제로 여학생들은 어려운 학과로 많이 몰렸고, 남학생들은 쉬운 학과로 많이 몰렸다.
    • 각 학과에서 남녀 차별 하지 않았음에도 불구하고 전체적인 합격률 차이 有
  • 강남의 오래된 아파트가 새 아파트보다 같은 평수에서 더 비싼가?
    • 오래된 아파트는 대단지에 들어가 있고, 새로운 아파트는 대단지가 다 소진됐으니까 소규모 단지에 있음
    • 대규모 단지에 있어야 편의시설 등 때문에 값이 비쌈
    • 단지규모 별로 따로 분석하지 않으면 아파트 나이와 아파트 가격의 관계가 역전돼서 나타날 수 있음
  • 동경대학 프리미엄은 존재하는가?
    • 실력도 없는 것들이 자기들끼리 잘 해먹고 끼리끼리 이런 게 마피아 프리미엄
    • 학내 사태 때문에 동경대학은 69학번이 없음
      • 동경대 갈 수 있는 실력을 가진 사람을 일부러 다른 쪽으로 옮겨온 것 같은 실험과 같음
      • 동경대학의 68, 70 학번과 인접우수대학의 69학번을 비교
    • 공무원 사회에서는 동경대 프리미엄이 없지 않다.



8. 통계학을 대하는 자세

  • 잘못된 모형을 정확하게 푸는 것보다 올바른 부분을 근사적으로 푸는 게 낫다.
  • 통계학은 미지의 세계에 대한 안내자이다.
  • 통계학은 스포츠와 같다. 토론하는 것보다 실천하는 게 낫다.
  • 모든 모형은 틀렸다. 다만, 몇몇 모형은 유용하다.
  • 모든 모형은 최대한 단순한 게 좋다. 그렇지만 지나치게 단순해서는 곤란하다.
  • Obvious is the most dangerous word in mathematics.