The PLT Blog

Hanging memories by one progress at a time.

R강좌 7: 베이즈통계와 계층모형(이론편)

여름방학을 맞아 서울대학교 통계교육원에서 실시하는 R통계교육을 신청하였다. 기초 강좌 및 초기 강좌는 모두 너무 빨리 마감되는 바람에, 관심이 있었지만 잘 알지 못했던 ①베이지안 통계②다변량 분석 등 아직 생소한 주제를 다루는 2개 강의를 신청하였다.

오늘은, 제 1강 베이즈 통계와 계층모형의 내용을 간단히 정리해 보려고 한다.

베이지안 정리 창시자

토마스 베이즈는 1700년대 영구긔 장로교 목사이자 아마추어 수학자로 활동하고 있었다.

베이즈는 Decenter 혹은 Non-conformist로 알려졌는데, David Hume이 인과관계를 인간이 파악할 수 있다는 믿음을 의심한데 대한 반박으로 논문을 작성하였다고 한다.

[강의 전 준비사항] rstan 패키지 설치 방법!

베이지안 통계의 이론과 R을 통한 실습을 공부하기 때문에 먼저 rstan 
패키지를 설치하는 방법을 메일로 안내받았다. 
공유받은 동영상을 통해서, rstan설치를 손쉽게 진행할 수 잇었다. 
(유투브 링크를 참조)

베이즈는 살아생전에 논문을 발표하지 않았으나, 베이즈의 친구인 Price가 베이즈 사후에 이 논문을 발표하여 사후 1764년에 이를 발표하였다고 한다.

라플라스는 역사적으로 첫 전문 수학자로 볼 수 있을 것인데 , 라플라스의 업적을 요약하자면 다음과 같다

  • 베이즈 정리의 재발견: 원인의 확률이라는 개념 발견
  • 중심극한정리(Central Limit Theorem)를 발견
  • 남녀출생성비의 계산(Data를 활용한 추정)
  • “나는 그 가설이 필요하지 않습니다”
    (나폴레옹이 “당신의 이론에서는 신에대한 이야기를 찾아볼 수 없다. 왜인가?”라고 질문했을 때 라플라스가 위와 같이 대답했다고 한다.)

– 모수 (θ) 자연의 법칙을 나타내는 미지의 값

– 관측치(x) 확률분포 f(x|θ)를 따르는 확률변수

– 목표 x를 기초로 모수 θ에 대한 추론을 하고자 한다.

베이즈 추론의 구성 요소

  • 사전분포: θ의 분포로 자료를 보기 전에 분석자의 θ에 관한 불확실성을 나타내며 π(θ)로 나타낸다.
  • 확률모형: x|θ ~ f(x|θ).
  • 사후분포: 자료가 주어졌을 때 θ의 확률분포로 자료를 본 이후 분석자의 θ에 관한 불확실성을 나타내며, π(θ| x)로 나타낸다.

결국, 확률과 관련된 모든 데이터를 수집하여 사후분포를 계산한 다음, 이를 이용하여 추론하는 방법이라고 간단히 이해할 수 있다.

참고. 조건부 확률과 조건부 밀도함수

  • 조건부 확률: B가 주어졌을 때, A의 조건부 확률은
    P(A|B): = P(A∩B)/ P(B) , P(B) > 0 일 때와 같이 정의된다.
  • 조건부 밀도함수 y가 주어졌을 때, x의 조건부 밀도함수는
    f(x|y): = fx, y (x, y) / fy(y)
    와 같이 정의된다. fy(y)는 주변밀돰수이며 fx,y(x,y)sms x와 y의 결합밀도함수이다.

[연습문제] 코로나19진단의 양성 확률 (추후 정리)

COVID-19 진단은 소량의 바이러스 cDNA 양을 증폭하는 실시간중합요소연쇄반응법(RT-PCR)을 사용하는데, 이 방법의 특이도(specificity)는 99%이고 민감도(sensitivity)는 92.2%라고 한다.

특이도는 음성인 환자 중 음성으로 판명되는 비율이며, 민감도는 양성인 환자 중 양성으로 판명되는 비율이다. A가 어제 양성 판정을 받았을 경우 A가 진짜 양성일 확률은 얼마인가?

참고로, 우리나라 전체 인구 중 0.5%가 양성이라고 가정한다.

※위 연습문제는 조건부 확률과 조건부 밀도함수를 사용하여 구할 수 있다.

구하고자 하는 값은 P(실제 양성일 확률 | 진단검사가 양성인 조건)

= P(실제양성 ∩진단결과양성) / P(진단결과양성) = P(실제양성확률) * P(진단양성 | 실제 양성) / P(진단결과양성) + P(진단결과양성|실제 음성)

= 0.005 * 민감도(0.922) /[ 0.005*민감도(0.922) + 0.995(음성)*(1-0.99)]

= 0.316

실제 랜덤한 과정을 통해 진단키트 검사를 통해 양성 판정을 받는다 하더라도, 실제 양성일 확률이 낮은 것으로 볼 수 있음(?)

[질문] 그러나, 0.005%가 양성이라는 가정에 모순이 있다고 생각이 됨 – 모든 국민이 검사를 받은 결과 양성일 확률이 0.005%라면, 내가 검사를 받을 확률이 모형에 포함되지 않았음.
그렇다면, 위에서 나타나는 확률은 전국민의 양성일 확률을 고려한 모형임을 감안한 결과로 볼 수 있음.

베이즈 법칙: 사후분포의 계산 방법

베이즈 법칙 혹은 베이즈 정리는 사후분포를 계산하는 수학적 방법이며,

와 같이 정의할 수 있다.

압정의 예: 사후분포의 계산

  • 사전분포: θ ~ Uniform(0, 1).
    자료 x를 보기 전에, 모든 θ값이 동일한 가능성을 갖고 있다면, 즉 모든 θ 1≠ θ 2에 대하여 π( θ 1) = π( θ 2)라면 θ ~ Uniform(0,1).

Uniform(0,1)

0~1사이의 모든 확률이 동일한 확률로 발생할 수 있기 떄문에 이와 같은 밀도함수를 가정(사전분포)

  • 가능도: x | θ ~ Binomial(n, θ ).
  • 사후분포

유니폼 (사전분포)함수에 의하면, 모든 확률의 비중이 균등한 반면, 사후분포인 β(8, 4)를 확인하면 θ값은 0.6~0.8임을 볼 수 있고, θ가 0.0~0.2일 확률은 거의 없다는 것을 알 수 있음.

베이즈 추정량

  • 베이즈 추정량은 사후분포의 한 점 요약 – 평균값을 나타낸 것으 볼 수 있음.
    데이터가 많아질 수록 사후분포의 정확도가 높아질 것으로 볼 수 있음.
  • 보통 사후분포의 평균(Posterior mean), 최대사후분포추정량(MAP, Maximum a Posteriori), 사후분포의 중앙값(Posterior median) 등을 쓴다.
  • 위 압정의 예에서 사후 분포는 θ | x ~ Beta(x+1, n-x+1)이고, 사후분포의 평균은
    E( θ |x) = x+1/ n+2 = 7+1 / 10+2 = 0.667 이다.

신용구간(Credible Set)

  • 베이즈 구간 추정량을 신용구간이라 부른다.
  • 100(1-α)% 신용구간은 다음을 만족하는 (L, U)이다.
    P[L < θ < U |x] = 1 – α
  • 베이즈 추론에서 구간추정의 해석은 θ 가 [L, U]에 포함될 확률이 1- α 이다.

베이즈 주의자 = measure of uncertainty 주관적/개인적 믿음의 정도(degree of belief)로 보고, 불확실성을 확률을 이용하여 표현.

베이즈 통계의 장점

  • 새로운 자료가 관측되었을 때, 정보를 업데이트 하는 것이 자연스럽고, 과거의 사후분포가, 현재의 사전분포가 됨.
  • (전문가 의견의 이용) 과거의 경험으로부터 강한 사전 정보 혹은 의견이 있을 때, 이를 추론에 이용할 수 있음.
  • (계층모형) 비슷한 값들을 동시에 추정해야 할 때, 정보를 종합하여 추론하는 데 장점이 있다.
  • 구간 추정과 가설 검정의 결과의 해석이 자연스럽다.
  • 추론을 할 때, 대표본이론을 이용한 근사를 이용하지 않아도 되며, 베이즈 추론을 통한 유한 표본에서도 정확한 추론 분포를 이용한다.
  • 빈도론 추론 방법이 베이즈 방법의 일종이 되는 경우가 많다.

베이즈 통계의 적용 예들

※ R실습을 진행할 계층모형의 경우 동일한 구간을 동시 추정할 때, 이를 이용하면 편리하게 진행할 수 있다. (다음 장에서 계속)

사후분포값 추정: 몬테카를로 방법

  • 몬테카를로 방법: 사후분포를 요약할 때, 사후분포로부터 추출한 랜덤 표본을 가지고 사후분포를 근사하는 방법
  • π(θ): 사후분포
  • θ 1, θ 2, θ 3, … θ m ~ π ( θ ) 컴퓨터로 각 세타값을 추정한 표본 분포를 가지고 그림을 그림

사후 분포의 밀도 함수를 쓸 수 있다고 해서, 여기에 해당하는 y값의 평균을 구하거나, 구간 추정 등을 하는 것은 쉽지 않음. 베타 함수의 경우 평균을 식으로 구하는 방법이 있으나, 많은 경우, 분포의 식을 알더라도 평균을 식으로 구할 없기 때문에, 따라서, 그 분포를 따르는 랜덤 샘플을 추출하여, 이를 통해 접근하는 방법을 이야기한다.

질문?

몬테카를로 방법에 대해서, 컴퓨터를 통해 새로이 표본을 추출하는 것이 왜 필요한 지에 대한 질문이 많이 있었는데, 이 부분에 대해서는 수리적 증명이나 모델 소개를 세부적으로 다루기에는 시간이 제한적이었기 때문에 R분석 실습 위주로, 모델을 소개할 예정이라는 답변을 주셨다.

Leave a Reply