일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- ETRI
- kt aivle school
- 다변량분석
- 에트리 인턴
- ML
- httr
- 하둡
- dx
- ggplot2
- 한국전자통신연구원 인턴
- hadoop
- 에이블러
- 지도학습
- cnn
- KT 에이블스쿨
- Ai
- python
- 기계학습
- 빅분기
- matplot
- 가나다영
- 머신러닝
- SQLD
- 하계인턴
- 에이블스쿨
- KT AIVLE
- 빅데이터분석기사
- 시각화
- 웹크롤링
- kaggle
- 한국전자통신연구원
- arima
- 프로그래머스
- 딥러닝
- SQL
- 소셜네트워크분석
- 시계열
- 서평
- r
- Eda
Archives
- Today
- Total
소품집
[ML/DL] MLE, MAP (최대우도법, 최대사후법) 본문
728x90
MLE(Maximum Likelihood Estimation)
모델 파라메터를 observation(관찰값)에만 의존하여 estimation(예측)
예시
-
모델: Probability density function f
-
모델의 파라메터: θ
-
Observation: X = (x1, x2, …, xn) → n: 데이터개수
-
Likelihood
- Log는 단조증가함수인데다가 곱셈을 덧셈으로 바꿔주므로, 계산의 편의를 위해 Likeli-hood가 자주 이용됨
- 역시, 마무리는 Estimation 수식에 대한 '편미분'
Maximum Likelihood Estimation 예제
동전을 던져서 '앞면'이 나오는 확률을 구해보자
모델정의
-
Random variable X : 동면의 앞면이 나오는 횟수
-
X ~ B(n,p)
- Binomial Distribution (p: 앞면이 나올 확률)
-
P(X=k) : nCk*p^k(1-p)^(n-k) → n번 중에 k번 발생활 확률
-
- 100번 던져 앞면이 56회 나옴
-
모델의 p=0.5 (앞면이 나올 확률) 라 가정하고, Likelihood를 구해보자
데이터 (Evidence)
- 즉, 앞면횟수/총횟수
- 앞의 표 결과와 일치하는 것을 확인할 수 있다.
즉! MLE는 Likelihood를 최대화, (log)likelihood의 음수를 최소화
MLE 단점
-
Observation에 전적으로 의존하므로 outlier에 민감
→ 관찰값에만 의존하는 MLE에게는 어쩌면 당연한 결과이다.
MAP(Maximum a Posteriori Estimation)
MLE의 리스크를 해결해주는 MAP!
-
MLE는 주어진 파라메터를 기반으로 데이터의 Likelihood를 최대화
-
MAP은 주어진 데이터를 기반으로 최대 확률을 갖는 파라메터를 찾음
- 분자 부분에 대하여 비례하므로, (아래 수식에는 표현되어 있지 않으나. idd assumption 도 적용!)
- 이렇게 되면 MAP 수식 안에 Likelihood가 들어가게 되므로 **P(parameter)**만 알면 MLE 대신 MAP을 사용할 수 있게 된다!
수식
L : Likelihood 로서 데이터로부터 계산
f(θ) : prior probability 로서, parameter자체의 확률 → 사전지식이라 볼 수 있다!
예시
가정 : 10만명에 대하여 성적 분포(100점 만점)를 구할 때, 10명만 샘플링 하여 parameter estimation을 수행하려고 한다.
- 10명이 약 70점을 평균값으로 뭉쳐있는데, 사실 대부분의 데이터는 '80점'정도를 중심으로 Gaussian을 이루는 경험(지식)을 가지고 있다면 어떻게 될까?
- MLE는 10분의 데이터에만 의존하므로, 70점 근처로 결과를 얻음
- MAP는 '80'점 근처라는 prior knowledge를 적용하여, 대략 70~80점 근처의 결과를 얻게됨
- 하지만, 데이터 양이 충분히 많아지면 Prior 값의 영향이 거의 없어진다는 연구결과가 있음
728x90
'AI' 카테고리의 다른 글
[ML/DL] Artificial Neural Network (인공신경망) (0) | 2020.05.11 |
---|---|
[ML/DL] Perceptron (퍼셉트론) (0) | 2020.05.11 |
[ML/DL] PCA, SVD, Linear Discriminant Analysis (0) | 2020.05.01 |
[ML] Linear classification, regression (선형회귀) (0) | 2020.04.23 |
[ML/DL] Data mining introduction (0) | 2020.04.22 |
Comments