[경제통계학] 2. 히스토그램-2 통계 자료를 이용한 예시
- Napoleon Army’s Russian Invasion in 1812
- 그림, 통계 요약
- 야구통계: MLB 심판진의 인종편견
- Yasiel Puig 메이저리그 타율 분석
- Discrimination in Baseball (논문)
- 실시간 선거개표: 2012년 한국 대통령 선거
1. Napoleon Army’s Russian Invasion in 1812
- 1812년 6월 12일, 동유럽을 출발해서 42만의 나폴레옹 대군이 모스크바로 진격
- 9월 14일, 가을에 모스크바 도착
- 그때 당시 모스크바의 알렉산더 1세 짜르가 모스크바를 다 불태워서 먹을 게 없게 만들고 30만 주민들을 다른 지역으로 숨김
- 나폴레옹 군대가 한 달 동안 추위와 배고픔에 기다리다가 결국 10월 19일에 퇴각
그림으로 요약
- 1명의 사람 모양 = 만 명의 군사 의미
- 제일 처음에 나와 있는 사람 숫자 42명 = 42만 명 출발
- 중간에 죽은 사람은
shade
- 2명 shade = 그 전투에서 2만 명 사망
- 나폴레옹의
행군 루트
와군대규모
를 사람 숫자를 가지고 표현 (정보 多)
- 나폴레옹 군대가 왜 참담하게 망했는지, 얼마나 망했는지, 한 눈에 볼 수 있는 그림
- 그림에 나타난 정보
- 진격루트(light), 퇴각루트(dark)
- 군대의 크기 (밴드의 폭; 숫자로도 표현)
- 진격루트 밴드 두꺼움(42만 명) → 퇴각루트 밴드 얇음(1만 명)
- 41만 명 사망
- 퇴각할 때의 날짜 및 온도
- -24℃ 정도 지속 (프랑스 온도 섭씨로 변환, -30x0.8)
- 나폴레옹 군대가 많이 얼어죽었을 것
통계로 요약
- 생존자 수치를 점으로 표현
- 가로축은
누적 여행거리
- 동유럽부터 모스크바까지 900km, 다시 돌아오는 거리 900km (총 1800km)
-
세로축은 나폴레옹 군대가 몇 명 살아남았는지
생존자 수
- x=0; 출발점에서의 나폴레옹 군대 42만 명
- 0<x<1800; 중간 여정에서 나폴레옹 군대 40만 명이 매 시점 어느 정도 살아 있었는지 생존자 수
-
x=1800; 900km 갔다가 900km 돌아왔을 때 종착지에서 1만 명 생존
- 나폴레옹 군대의 몰락 과정을 누적 전쟁 거리의 함수로 표현
- 누적 거리가 증가함에 따라서 나폴레옹 군대 사이즈가 기하급수적으로 감소
자연로그 변환
- 기하급수적인 관계 →
선형관계
- 기하급수적인 관계 →
- 누적거리 별로 로그 생존자 수를 표현했더니
직선
에 의해서 근사가 잘 된다. - 로그 y를 상수항과 누적거리 x에 대해서
회귀분석
- R²=0.92; 로그 생존자 수의 변화를 누적거리라는 변수만 가지고 설명을 해도 92%가 설명이 된다.
- 선형식을 fitting하기 위해서 하나의 도구로
로그 변환
이용- 지수를 다시 취해서 역변환
ln(y) = 13.181 - 0.0022x
- x가 한 단위(1km) 증가할 때마다 0.0022*100=0.22%씩 사망
- 나폴레옹 군대는 생존자 100명 당 10km 진군할 때마다 평균 2명 꼴로 죽음
- 하나의 직선은 진군할 때를 표현하고, 또 다른 직선은 퇴각할 때 표현하면 낫지 않을까?
- 진군할 때보다 퇴각할 때 인명이 유실되는 속도가 가파름
- 진군할 때의 처음 900km까지 첫번째 직선을 그리고, 900km부터 1800km까지는 두 직선이 만나도록 제약을 준 상태에서 기울기가 다른 두번째 직선을 그린다.
ln(y) = 12.783 - 0.0012x - 0.0019(x-900)+
- 진격과 퇴각을 나누는 경계점 900km
(x-900)+
- x-900 (if, x-900>0)
- 0 (otherwise)
- x≤900;
ln(y) = 12.783 - 0.0012x
- 진격할 때, 100명 당 10km 진군할 때마다 1.2명씩 사망
- x>900;
ln(y) = 14.493 - 0.0031x
- 퇴각할 때, 100명 당 10km 진군할 때마다 3.1명씩 사망
- 나폴레옹 군대는 러시아 모스크바로 진격할 때는 100명당 10km 행군마다 1명 꼴로, 퇴각할 때는 3배인 3명 꼴로 사망했다.
- 원래 스케일로 환원
- 진격할 때 감소율보다 퇴각할 때의 감소율이 더 가파름
- R²=0.98; 진격과 퇴각을 따로 고려해서 생존자 수 변화의 98%를 설명한다.
2. 야구통계: MLB 심판진의 인종편견
Yasiel Puig 메이저리그 타율 분석
- Yasiel Puig, 쿠바에서 넘어온 메이저리그 선수
- 스트라이크 존을 3x3 구분 영역으로 파티션 분할
- 분할: 하나도 빠짐없이(전체 커버), 중복 없이
- 몸 쪽으로 가는 인코너는 스트라이크존 바깥으로 들어와도 거의 5~6할 대
- 스트라이크존 7개 부분 구간은 거의 5할 이상
- 아웃코너 낮은 볼만 2할 대
- 슬럼프 이유
- 상대 투수들의 적응
- Puig가 메이저리그에 적응하면서 기다리지 않고 막 치기 시작
- Puig 선수의 메이저리그 3개월 동안의 모습을 생생하게 표현
Discrimination in Baseball: MLB Umpires, Racial Bias and Calling Strikes
- 경제학 학술지인 아메리칸 이코노믹 리뷰 논문
- 차별에 대한 증거 제시
[왼쪽 그림] 백인 투수
- 주심(umpire)이 투수와 같은 인종(blue), 다른 인종(red)
QuesTec(초고속 카메라 시스템)
은 감시의 눈길을 의미- 백인 투수가 던지는데 주심이 백인인 경우, 스트라이크 확률 32%
- 백인 투수가 던지는데 주심이 백인이 아닌 경우, 스트라이크 확률 감소
- QuesTec이 설치되지 않은 곳에서는 인종차별이 있고, 설치된 곳에는 감시의 눈길이 있으니까 인종차별이 사라졌다.
[오른쪽 그림] 백인이 아닌 투수
- 백인이 아닌 주심이 보는 경우 스트라이크 확률 높고, 백인 주심이 보는 경우 스트라이크 확률 낮음
- 백인이 아닌 투수가 던지는 경우에도 감시카메라가 있으면 인종차별 사라짐
-
주심이 순간적으로 판단을 내릴 때 인종차별이 있을 수 있다.
- 통계라는 게 불확실성에 닿아있으니까 좀 더 설득력 있는 증거를 제시
- 모든 모형은 틀렸다. 그러나 어떤 것은 유용하다.
- 관중이 많아도 눈들이 많으니까 감시효과가 있지 않겠는가?
- 관중이 많이 온 경기, 적게 온 경기로 나눔
- Low attendance일 때, 감시카메라가 없을 때처럼 인종편견 有
- 복잡한 통계 없이
아이디어
로 분석 가능
3. 실시간 선거개표: 2012년 한국 대통령 선거
- 전국의 선거구마다 정치 성향이 다른데, 개표 속도가 지역마다 다름
- 새누리당 성향이 강한 지역이 먼저 개표가 되면 그쪽 후보가 인위적으로 올라갔다가 다른 지역 후보 우세지역이 개표가 되면 나중에 그쪽으로 쏠리는 인위적인 시계열 추세가 나타남
- 개표율을 조정해서 표를 집계하면 더 의미 있고 정확한 정보 전달 가능
- 개표당시 7시 50분, 조정을 하지 않으면 격차가 큰데 조정하면 격차 감소
- 박근혜 후보 우세지역의 개표율이 그때 당시에 문재인 후보 우세지역의 개표율보다 높았기 때문
- 개표당시 7시 50분 정보를 가지고 17개 광역 시도별로 어느 후보가 몇 표 최종 앞설 것으로 예측되는지 원의 크기로 표현한 것
- 수도권, 인천, 호남지역에서 문재인 후보가 앞서고, 나머지 전 지역에서 박근혜 후보가 앞선다.
- 전국으로 집계하면 한 90만 표 정도 박근혜 후보가 앞선 것으로 나타난다.
- 오차한계를 감안해도 오후 7시 50분 정도의 정보만 가지고도 상황종료를 판정할 수 있다.
Subscribe via RSS