• Napoleon Army’s Russian Invasion in 1812
    • 그림, 통계 요약
  • 야구통계: MLB 심판진의 인종편견
    • Yasiel Puig 메이저리그 타율 분석
    • Discrimination in Baseball (논문)
  • 실시간 선거개표: 2012년 한국 대통령 선거



1. Napoleon Army’s Russian Invasion in 1812

  • 1812년 6월 12일, 동유럽을 출발해서 42만의 나폴레옹 대군이 모스크바로 진격
  • 9월 14일, 가을에 모스크바 도착
  • 그때 당시 모스크바의 알렉산더 1세 짜르가 모스크바를 다 불태워서 먹을 게 없게 만들고 30만 주민들을 다른 지역으로 숨김
  • 나폴레옹 군대가 한 달 동안 추위와 배고픔에 기다리다가 결국 10월 19일에 퇴각


그림으로 요약

1

  • 1명의 사람 모양 = 만 명의 군사 의미
  • 제일 처음에 나와 있는 사람 숫자 42명 = 42만 명 출발
  • 중간에 죽은 사람은 shade
    • 2명 shade = 그 전투에서 2만 명 사망
  • 나폴레옹의 행군 루트군대규모를 사람 숫자를 가지고 표현 (정보 多)


2

  • 나폴레옹 군대가 왜 참담하게 망했는지, 얼마나 망했는지, 한 눈에 볼 수 있는 그림
  • 그림에 나타난 정보
    • 진격루트(light), 퇴각루트(dark)
    • 군대의 크기 (밴드의 폭; 숫자로도 표현)
      • 진격루트 밴드 두꺼움(42만 명) → 퇴각루트 밴드 얇음(1만 명)
      • 41만 명 사망
    • 퇴각할 때의 날짜 및 온도
      • -24℃ 정도 지속 (프랑스 온도 섭씨로 변환, -30x0.8)
      • 나폴레옹 군대가 많이 얼어죽었을 것


통계로 요약

3

  • 생존자 수치를 으로 표현
  • 가로축누적 여행거리
    • 동유럽부터 모스크바까지 900km, 다시 돌아오는 거리 900km (총 1800km)
  • 세로축은 나폴레옹 군대가 몇 명 살아남았는지 생존자 수

  • x=0; 출발점에서의 나폴레옹 군대 42만 명
  • 0<x<1800; 중간 여정에서 나폴레옹 군대 40만 명이 매 시점 어느 정도 살아 있었는지 생존자 수
  • x=1800; 900km 갔다가 900km 돌아왔을 때 종착지에서 1만 명 생존

  • 나폴레옹 군대의 몰락 과정을 누적 전쟁 거리의 함수로 표현
  • 누적 거리가 증가함에 따라서 나폴레옹 군대 사이즈가 기하급수적으로 감소


4

  • 자연로그 변환
    • 기하급수적인 관계 → 선형관계


5

  • 누적거리 별로 로그 생존자 수를 표현했더니 직선에 의해서 근사가 잘 된다.
  • 로그 y를 상수항과 누적거리 x에 대해서 회귀분석
  • R²=0.92; 로그 생존자 수의 변화를 누적거리라는 변수만 가지고 설명을 해도 92%가 설명이 된다.


6

  • 선형식을 fitting하기 위해서 하나의 도구로 로그 변환 이용
    • 지수를 다시 취해서 역변환
  • ln(y) = 13.181 - 0.0022x
  • x가 한 단위(1km) 증가할 때마다 0.0022*100=0.22%씩 사망
  • 나폴레옹 군대는 생존자 100명 당 10km 진군할 때마다 평균 2명 꼴로 죽음


8

  • 하나의 직선은 진군할 때를 표현하고, 또 다른 직선은 퇴각할 때 표현하면 낫지 않을까?
    • 진군할 때보다 퇴각할 때 인명이 유실되는 속도가 가파름
  • 진군할 때의 처음 900km까지 첫번째 직선을 그리고, 900km부터 1800km까지는 두 직선이 만나도록 제약을 준 상태에서 기울기가 다른 두번째 직선을 그린다.
  • ln(y) = 12.783 - 0.0012x - 0.0019(x-900)+
    • 진격과 퇴각을 나누는 경계점 900km
    • (x-900)+
      • x-900 (if, x-900>0)
      • 0 (otherwise)
    • x≤900; ln(y) = 12.783 - 0.0012x
      • 진격할 때, 100명 당 10km 진군할 때마다 1.2명씩 사망
    • x>900; ln(y) = 14.493 - 0.0031x
      • 퇴각할 때, 100명 당 10km 진군할 때마다 3.1명씩 사망
  • 나폴레옹 군대는 러시아 모스크바로 진격할 때는 100명당 10km 행군마다 1명 꼴로, 퇴각할 때는 3배인 3명 꼴로 사망했다.


9

  • 원래 스케일로 환원
  • 진격할 때 감소율보다 퇴각할 때의 감소율이 더 가파름
  • R²=0.98; 진격과 퇴각을 따로 고려해서 생존자 수 변화의 98%를 설명한다.



2. 야구통계: MLB 심판진의 인종편견

Yasiel Puig 메이저리그 타율 분석

10

  • Yasiel Puig, 쿠바에서 넘어온 메이저리그 선수
  • 스트라이크 존을 3x3 구분 영역으로 파티션 분할
    • 분할: 하나도 빠짐없이(전체 커버), 중복 없이
  • 몸 쪽으로 가는 인코너는 스트라이크존 바깥으로 들어와도 거의 5~6할 대
  • 스트라이크존 7개 부분 구간은 거의 5할 이상
  • 아웃코너 낮은 볼만 2할 대

11

  • 슬럼프 이유
    • 상대 투수들의 적응
    • Puig가 메이저리그에 적응하면서 기다리지 않고 막 치기 시작

12

  • Puig 선수의 메이저리그 3개월 동안의 모습을 생생하게 표현


Discrimination in Baseball: MLB Umpires, Racial Bias and Calling Strikes

  • 경제학 학술지인 아메리칸 이코노믹 리뷰 논문
  • 차별에 대한 증거 제시

13

[왼쪽 그림] 백인 투수

  • 주심(umpire)이 투수와 같은 인종(blue), 다른 인종(red)
  • QuesTec(초고속 카메라 시스템)은 감시의 눈길을 의미
    • 백인 투수가 던지는데 주심이 백인인 경우, 스트라이크 확률 32%
    • 백인 투수가 던지는데 주심이 백인이 아닌 경우, 스트라이크 확률 감소
  • QuesTec이 설치되지 않은 곳에서는 인종차별이 있고, 설치된 곳에는 감시의 눈길이 있으니까 인종차별이 사라졌다.

[오른쪽 그림] 백인이 아닌 투수

  • 백인이 아닌 주심이 보는 경우 스트라이크 확률 높고, 백인 주심이 보는 경우 스트라이크 확률 낮음
  • 백인이 아닌 투수가 던지는 경우에도 감시카메라가 있으면 인종차별 사라짐
  • 주심이 순간적으로 판단을 내릴 때 인종차별이 있을 수 있다.

  • 통계라는 게 불확실성에 닿아있으니까 좀 더 설득력 있는 증거를 제시
  • 모든 모형은 틀렸다. 그러나 어떤 것은 유용하다.


14

  • 관중이 많아도 눈들이 많으니까 감시효과가 있지 않겠는가?
    • 관중이 많이 온 경기, 적게 온 경기로 나눔
  • Low attendance일 때, 감시카메라가 없을 때처럼 인종편견 有
  • 복잡한 통계 없이 아이디어로 분석 가능



3. 실시간 선거개표: 2012년 한국 대통령 선거

15

  • 전국의 선거구마다 정치 성향이 다른데, 개표 속도가 지역마다 다름
    • 새누리당 성향이 강한 지역이 먼저 개표가 되면 그쪽 후보가 인위적으로 올라갔다가 다른 지역 후보 우세지역이 개표가 되면 나중에 그쪽으로 쏠리는 인위적인 시계열 추세가 나타남
  • 개표율을 조정해서 표를 집계하면 더 의미 있고 정확한 정보 전달 가능
    • 개표당시 7시 50분, 조정을 하지 않으면 격차가 큰데 조정하면 격차 감소
    • 박근혜 후보 우세지역의 개표율이 그때 당시에 문재인 후보 우세지역의 개표율보다 높았기 때문


16

  • 개표당시 7시 50분 정보를 가지고 17개 광역 시도별로 어느 후보가 몇 표 최종 앞설 것으로 예측되는지 원의 크기로 표현한 것
  • 수도권, 인천, 호남지역에서 문재인 후보가 앞서고, 나머지 전 지역에서 박근혜 후보가 앞선다.
  • 전국으로 집계하면 한 90만 표 정도 박근혜 후보가 앞선 것으로 나타난다.


17

  • 오차한계를 감안해도 오후 7시 50분 정도의 정보만 가지고도 상황종료를 판정할 수 있다.