• 그림 이용한 자료 정리
    • 정치선거에서 현역 프리미엄이 존재하는가?
    • 시계열 그림, 줄기-잎 그림, 히스토그램, 겹-줄기-잎 그림, 파이 도표
  • 히스토그램 그리기
    • Yellowstone의 Old Faithful
  • 혼동요인 통제: 따로따로 분석하기
    • 경구 피임약의 복용이 해당 여성의 혈압을 높이는가?



1. 그림 이용한 자료 정리

정치선거에서 현역 프리미엄이 존재하는가?

1

[왼쪽 그림] 현재 선거를 다음 선거와 비교

  • 가로축은 직전 선거에서 공화당 대비 민주당이 몇 퍼센트 더 득표했는지 이전 선거 득표마진
    • 0: 민주당과 공화당 후보가 정확하게 같게 득표
    • 오른쪽: 지난 선거에서 민주당 후보가 당선
    • 왼쪽: 지난 선거에서 공화당 후보가 당선
    • 중간에서 좌우로 멀어질수록, 해당지역 주민들이 한쪽 정당을 굉장히 선호하는 것
    • 0 근처로 모일수록, 근소한 차이로 당선된 것
  • 세로축은 직전 선거에서 민주당이 몇 표차로 이겼는지 졌는지에 따라서 다음 선거에서 민주당이 승리할 확률
  • 한 점은 직전 선거에서 가로축에 해당하는 값만큼 민주당이 공화당에 대해서 이기거나 졌을 때, 그런 지역들만 모아놓고 다음 선거에서 민주당이 세 군데에서 이겼으면 0.3을 세로축 값으로 표현한 것
  • 곡선은 그런 점들을 가장 잘 근사시키는 선을 통계적인 기법에 따라 근사한 근사식

  • 오른쪽 끝에 있는 점은 지난 선거에서 민주당 대승, 이번 선거에서도 민주당이 대체로 승리
  • 왼쪽 끝에 있는 점은 지난 선거에서 민주당 대패, 이번 선거에서도 민주당이 승산 없음
  • 전체적으로 이 점들을 요약한 곡선은 증가하는 양상이다.
    • 지역 선거에서 국민의 성향이 잘 변하지 않는다.
    • 지난 선거에서 민주당이 당선됐으면 이번에도 민주당이 당선될 가능성이 높다.
  • 두 색깔의 경계점(가로축 0) 근처
    • 지난 선거에서 근소한 차이로 민주당이 이겼거나 졌던 지역
    • 한 두 표 차이로 민주당이 이긴 쪽에서는 다음 선거에서 민주당이 이길 확률 ↑
    • 한 두 표 차이로 진 데에서는 민주당이 다음 선거에서 이길 확률 ↓
  • 지역 구성원들의 정치적 성향이 거의 비슷한데 근소한 차이로 지난 선거에서 민주당이 당선되었다면, 이번 선거에서 그 덕을 보겠는가?
  • 한 두 표차이라도 지난 번 선거에서 이겼으면 다음 번 선거에서 굉장히 유리해진다.

[오른쪽 그림] 현재 선거를 이전 선거와 비교

  • 가로축은 가장 최근 선거에서 민주당이 몇 퍼센트 차이로 이겼는지
  • 세로축은 그 이전 선거에서 해당 지역별로 민주당이 몇 번 이겼는지
  • 경계점에서 점프 없음 (설득력↑)

[Summary]

  • 한 두 표 차이로 이겼을 때 다음 선거에서 유리
  • 한 두 표 차이로 이기거나 지거나 과거 선거에서는 어차피 민주당 성향이 강한 데서는 과거에서도 많이 이겼고 덜한 데서는 민주당이 덜 이겼음 (연속적인 관계)
  • 미국 하원의원 선거에서 지역구 별로 현역 프리미엄이 굉장히 강력하게 존재한다.
  • 갭 0.45, 운에 의해 근소한 투표 차이로 현역이 되면 다음 번 선거에서 이길 확률이 45%나 증가한다.


1) 시계열 그림

  • 시간에 따른 자료의 변화나 추세를 파악하는데 적절
  • 가로축은 시간

2

  • 가로축은 베이비 루스가 뉴욕 양키스 멤버로 활약한 1920년부터 은퇴한 1930년대 중반까지 각 연도
  • 세로축은 매 시즌 베이비 루스가 홈런을 몇 개를 쳤는지
  • 40에서 50 구간에 밴드 내에 점들이 7개 존재
    • 베이비 루스는 전체 미국 양키스 시즌 중에 7시즌을 홈런을 40개 넘게 쳤다.
    • 베이비 루스의 대표적인 홈런 개수는 한 시즌에 4X개라고 할 수 있다.


2) 줄기-잎 그림

  • 시계열 그림에서 세로축 밴드별로 구간별로 자료의 개수를 세면 줄기-잎 그림
  • 줄기는 십진법을 나타내는 자리수
  • 잎은 1자리의 숫자 (작은 것부터 큰 것 순으로)

3

  • 20이라는 줄기에 2라는 잎은 22개의 홈런을 친 시즌이 한 시즌이 있었다는 것을 의미
  • 40이라고 하는 줄기에는 잎이 7개가 달려 있음
  • 46개의 홈런을 친 시즌이 세 번 (숫자6 3번 반복)


3) 히스토그램

  • 줄기-잎 그림을 세우면 히스토그램
  • 자료의 분포 알 수 있음

4

  • 연도 무시하고 해당 구간에서 몇 시즌 홈런을 쳤는지 볼 수 있음
    • 베이비 루스는 한 시즌에 대략 홈런을 4X개 친다. (대표값)
    • 성적이 안 좋을 때는 2X개, 성적이 좋을 때는 6X개 친다. (최솟값, 최댓값)
    • 베이비 루스의 홈런 기록에는 편차(variation)가 있다.
  • 하나의 불확실성과 하나의 그림이 대응
  • 뉴욕양키스가 베이비 루스에 투자할 때 불확실한 투자
    • 한 시즌에 홈런을 몇 개를 칠지 불확실하다. (20~40~60개)
    • 한 시즌에서 다음 시즌으로 넘어갈 때 홈런개수가 이 정도로 차이가 나는 리스크가 따를 수 있다.


4) 겹-줄기-잎 그림

5

  • 베이비 루스 vs 마크 맥과이어
    • 최댓값 기준, 베이비 루스(60) < 마크 맥과이어(70)
    • 대표값 기준, 베이비 루스(4X) > 마크 맥과이어 (3X)
    • 리스크 기준, 베이비 루스(몰려있음) < 마크 맥과이어(퍼져있음)
      • 리스크 작을수록 좋음
  • 자료의 개수는 맥과이어가 적음. 자료의 개수가 달라서 생기는 시각적 차이를 없애기 위해 맥과이어의 잎 하나는 베이브 루드의 잎 하나보다 14/11배 만큼 크게 그림 (좌우 면적 동일)


5) 파이 도표

  • 자료의 구성비

6

  • 홈런을 4x개 친 게 전체의 절반 정도가 된다.



2. 히스토그램 그리기

  • 분포표 작성 7
    • 자료를 범위로 나눠서 개수를 세어서 비율로 바꾸어 표현
  • 가로축 좌표 값 8

  • 따라하지 말 것 9
    • 높이로 그 구간에 속한 사람들을 표현하면 600~1000만원의 면적이 지나치게 과대평가된다.
  • 따라할 것 10
    • 밀도를 사용해서 소득분포를 히스토그램으로 나타냄 (밀도단위 히스토그램)
    • 600~1000만원의 구간은 넓으니까 같은 비율의 사람이 있을 때 나눠서 채우니까 높이 ↓
    • 면적 = 해당구간에 속한 자료의 비율
  • 밀도 단위(density scale)
    • 면적비율을 나타내도록 그려진 히스토그램의 세로축 단위
    • 면적 = 확률, 상대도수
    • 히스토그램 전체 블록의 면적은 100%


Yellowstone의 Old Faithful

  • 미국 최초의 국립공원 옐로우스톤 내 간헐천
  • 옛날부터 지금까지 시간이 되면 물줄기를 뿜는다.

  • Geyser의 분출지속시간 11
    • 물 분출하는 시간을 분 단위로 측정한 히스토그램
    • 운이 좋으면 4.5분 정도, 운이 나쁘면 2분 정도 분출
    • 두 개의 봉우리 갖는 쌍봉 분포(Bimodal Distribution)
  • 다음 분출까지의 대기시간 12
    • 다음에 분출할 때까지 기다리는 대기시간
    • 운이 좋으면 50분 정도, 운이 나쁘면 80분 정도 대기
    • 두 개의 봉우리 갖는 쌍봉 분포(Bimodal Distribution)
  • 분출지속시간 & 대기시간 13
    • 분출 데이터를 두 개 변수의 관점에서 정리
      • 앞에서의 분출 지속기간 x
      • 다음 번 분출까지 기다리는 시간 y
    • blue: 앞에서 분출이 짧았을 때 (x값이 3분 이하인 자료들로만 y값의 히스토그램을 그린 것)
    • red: 앞에서 분출이 길었을 때 (x값이 3분 이상인 자료들로만 y값의 히스토그램을 그린 것)

    • 앞에 물을 오랫동안 뿜었으면 오래 기다려야 하고, 조금만 뿜었으면 잠시만 기다리면 된다.



3. 혼동요인 통제: 따로따로 분석하기

  • 경험적인 자료를 분석하면 뭔가 잠복해 있는 것들을 통제 못해서 잠복해 있는 요인의 영역을 공통으로 받는 x와 y의 관계가 왜곡돼서 나타날 수 있다.
  • 잠복해 있는 혼동요인을 통제하려고 하면 ‘따로따로’ 분석


경구 피임약의 복용이 해당 여성의 혈압을 높이는가?

  • 경구 피임약을 복용한 사람과 그렇지 않은 사람을 비교하면 나이혼동요인으로 작용할 수 있음
    • 연세 많으신 할머니는 피임약 복용할 필요가 없지만 젊은 여성은 피임약 복용할 필요 있음
    • 나이가 들면 혈관이 막혀서 혈압 상승
  • 나이를 통제하지 않으면, 경구피임약 복용이 혈압에 미친 효과인지 나이에 따른 효과인지 알 수 없음

  • 연령별로 경구 피임약 복용 여부가 혈압에 미치는 영향

    14

    • 각 나이 그룹별로 복용자와 비복용자를 따로따로 나눠서 각 혈압구간에 속한 사람의 비율 나타냄
  • 경구 피임약 복용 여부가 혈압에 미치는 영향 (25~34세 여성 한정)

    15

    • [왼쪽 그림] 피임약 복용 여부에 따라 두 집단으로 나눠서 혈압의 분포 관찰
      • 복용자가 비복용자보다 혈압분포가 오른쪽으로 약간 이동한 형태
      • 복용자 집단의 혈압이 대체로 높음
    • [오른쪽 그림] 비복용자의 혈압 분포를 우측으로 5mm 이동시킨 분포
      • 두 히스토그램이 엇비슷해 보임
      • 경구 피임약 복용이 25~34세 여성의 혈압을 약 5mm 정도 상승시킨다는 결론 도출
  • 연령 및 경구 피임약 복용 여부와 혈압의 관계

    16

    • 복용자(yellow), 비복용자(blue)
    • 가로축(혈압), 세로축(나이), 높이(비율)

    • 동일한 색에서 앞에 있는 것과 뒤에 있는 것 비교 (복용 여부 통제)
      • 나이의 순수효과
      • 같은 복용자라도 나이가 들면 혈압이 좀 올라가는 것처럼 보인다.
    • 동일한 연령대에서 노란색과 파란색 비교 (나이 통제)
      • 피임약 복용의 순수효과
      • 같은 연령대라도 복용자가 혈압이 더 높은 것처럼 보인다.
    • 각각의 효과를 따로따로 분리해서 볼 수 있다.