소품집

[ML/DL] MLE, MAP (최대우도법, 최대사후법) 본문

AI

[ML/DL] MLE, MAP (최대우도법, 최대사후법)

sodayeong 2020. 5. 6. 00:56
728x90

MLE(Maximum Likelihood Estimation)


모델 파라메터를 observation(관찰값)에만 의존하여 estimation(예측)

 

예시

  • 모델: Probability density function f

  • 모델의 파라메터: θ

  • Observation: X = (x1, x2, …, xn) → n: 데이터개수

  • Likelihood

  • Log는 단조증가함수인데다가 곱셈을 덧셈으로 바꿔주므로, 계산의 편의를 위해 Likeli-hood가 자주 이용됨
  • 역시, 마무리는 Estimation 수식에 대한 '편미분'

 

 

Maximum Likelihood Estimation 예제


동전을 던져서 '앞면'이 나오는 확률을 구해보자

 

모델정의

  • Random variable X : 동면의 앞면이 나오는 횟수

  • X ~ B(n,p)

    • Binomial Distribution (p: 앞면이 나올 확률)
  • P(X=k) : nCk*p^k(1-p)^(n-k) → n번 중에 k번 발생활 확률

    • 100번 던져 앞면이 56회 나옴
    • 모델의 p=0.5 (앞면이 나올 확률) 라 가정하고, Likelihood를 구해보자

       

      데이터 (Evidence)

  • 즉, 앞면횟수/총횟수
  • 앞의 표 결과와 일치하는 것을 확인할 수 있다.

즉! MLE는 Likelihood를 최대화, (log)likelihood의 음수를 최소화

MLE 단점

  • Observation에 전적으로 의존하므로 outlier에 민감

    → 관찰값에만 의존하는 MLE에게는 어쩌면 당연한 결과이다.

 

 

MAP(Maximum a Posteriori Estimation)


MLE의 리스크를 해결해주는 MAP!

  • MLE는 주어진 파라메터를 기반으로 데이터의 Likelihood를 최대화

  • MAP은 주어진 데이터를 기반으로 최대 확률을 갖는 파라메터를 찾음

 

 

  • 분자 부분에 대하여 비례하므로, (아래 수식에는 표현되어 있지 않으나. idd assumption 도 적용!)
  • 이렇게 되면 MAP 수식 안에 Likelihood가 들어가게 되므로 **P(parameter)**만 알면 MLE 대신 MAP을 사용할 수 있게 된다!

 

수식

L : Likelihood 로서 데이터로부터 계산

f(θ) : prior probability 로서, parameter자체의 확률 → 사전지식이라 볼 수 있다!

 

 

예시

가정 : 10만명에 대하여 성적 분포(100점 만점)를 구할 때, 10명만 샘플링 하여 parameter estimation을 수행하려고 한다.

  • 10명이 약 70점을 평균값으로 뭉쳐있는데, 사실 대부분의 데이터는 '80점'정도를 중심으로 Gaussian을 이루는 경험(지식)을 가지고 있다면 어떻게 될까?
    • MLE는 10분의 데이터에만 의존하므로, 70점 근처로 결과를 얻음
    • MAP는 '80'점 근처라는 prior knowledge를 적용하여, 대략 70~80점 근처의 결과를 얻게됨
  • 하지만, 데이터 양이 충분히 많아지면 Prior 값의 영향이 거의 없어진다는 연구결과가 있음
728x90
Comments