• 통계학을 왜 배워야 하나?
    • 엉터리 통계 예시
    • 통계학
  • 자료
    • 자료의 종류
    • 렉시스 도표



1. 통계학을 왜 배워야 하나?

  • 통계학의 유용성
    • 10% 담뱃값 인상을 하면 청소년층의 흡연 어느 정도 줄 것인가?
    • 실업자들에 대해서 정부가 예산을 투입해서 재교육을 시키면 취업률이 얼마나 올라갈 것인가? 취업했을 때 임금은 어느 정도 상승하는 효과가 있을 것인가?
    • 외국인 직접투자가 경제성장률에 얼마나 도움이 되는가?
    • 노동시장이나 스포츠 세계에서 여성이나 마이너리티 인종 그룹에 대한 차별이 존재하는가?
  • 월별 출생률 (미국)
    • 1월부터 12월까지 월별 출생률, 출생자 수, 인구 10만 명당 출생 수 계산
    • 5월에 수치가 떨어지는데 북쪽에 있는 뉴욕보다 남쪽에 있는 조지아가 훨씬 더 심함
    • 이런 현상이 에어컨이 보급되면서 사라짐
  • 통제된 실험에서 두 비율의 비교

1

  • 서식 A의 정보와 서식 B의 정보 완전히 일치
  • 서식 A는 사망 키워드, 서식 B는 생존 키워드로 정보 전달
  • 관측된 차이는 통계적으로 의미 있음 (statistically significant difference)


엉터리 통계 예시

  • “주식은 저점에서 사고, 고점에서 팔아라.” → 당시에는 저점인지, 고점인지 알 수 없음
  • “원칙을 지키며 펀더멘털에 따라서 투자한 결과 3개월 만에 800%가 넘는 높은 수익률이 실현됐다.” → 원칙 안 지키고 위험한 종목만 골라서 투자한 결과 순전히 운에 의해 수익률 실현
  • “수능 성적과 입학 후 학점 간에는 상관관계가 낮습니다. 수능 성적은 입학 후 성취를 예측하는데 별로 도움이 되지 못합니다.” → 학과별로 따로 보면 수능점수가 입학 후 학점을 예측하는데 도움될 것

  • 친부모는 80%가 아동학대를 하고 계부모는 10% 미만만 아동을 학대한다?
    • 대부분의 아이들이 친부모 밑에서 자란다.
    • 친부모 밑에서 자라난 아이 100명을 무작위로 추출하고, 계부모 밑에서 자라난 아이 100명을 무작위로 추출해서 1년 동안 맞은 경험이 있는 비율을 비교해야 한다. (two-sample analysis)
  • 곧은길에서 사고가 더 난다?
    • 길은 대부분 곧은길.
    • 곧은길을 차 한 대가 100만km로 달렸다고 가정했을 때 사고가 얼마나 났는가? 굽은 길을 차 한 대가 100만km를 달린다고 했을 때, 그렇게 환산했을 때 사고가 어느 정도 났는가? 이 둘을 비교해야 의미 있는 비교


통계학

  • 통계학이란?
    • 자료를 묘사하고 그다음에 묘사된 자료에 담긴 의미가 무엇인지, 새기는 작업
    • 그림, 수치로 자료 정리 —확률—> 의미 추론

2

  • 통계학의 분류
    • 기술통계학(descriptive statistics): 자료 묘사
    • 추론통계학(inferential statistics): 의미 추론



2. 자료

  • 모집단과 표본 사이의 관계

3

  • 모집단(population): 관심의 대상이 되는 집단
  • 모수(parameter): 모집단의 특성
  • 모수, 모집단을 여러 가지 이유로 다 분석할 수 없기 때문에 자료를 뽑아서 일부의 자료를 분석
  • 표본(sample): 뽑힌 자료
  • 통계량(statistic): 표본을 가지고 계산해내는 각종 수치들


자료의 종류

  • 횡단면 자료(cross-sectional data): 한 시점, 여러 개체
  • 시계열 자료(time-series data): 여러 시점, 한 개체
  • 패널 자료(panel data) or 종적 자료(longitudinal data): 여러 시점, 여러 개체


렉시스 도표

4

  • 가로축 연도, 세로축 나이
  • 각 라인의 기울기는 45도 = 1년 세월이 지나면 나이가 한 살 더 먹는다.
  • 45도선을 따라서 자료를 모으면 시계열 자료
  • 한 시점을 잘라서 그 수직선을 따라서 자료를 모으면 횡단면 자료
  • 여러 45도 선을 따라서 여러 명에 대해서 시간에 걸쳐서 자료를 모은 것을 전체로 합쳐 넣으면 패널 자료, 종착 자료