1.3 MAP Review
이 글은 공부를 위해 적는 것입니다.모든 저작권은 KAIST 문일철 교수님과 Edwith에 있습니다.
강좌 URL : https://www.edwith.org/machinelearning1_17/lecture/10576/
PDF는 위 강좌 URL을 통해 무료로 다운받을 수 있습니다.
Image 파일 아래의 글들은 강의를 토대로 작성되었으며 저의 생각이 약간 감미된 경우 또한 있습니다.
배운점
- Posteriror Probability = Bayesian's Rule
- 비례일 때 Normalize Constant를 다루는 법
- Beta Distribution
- MAP(Maximum a Posterior Estimation)
- MLE와 MAP는 어떤 때 같아질까?
캡션 추가 |
Bayes라는 사람은 Head가 나올 확률에 대해 50%라고 생각하지 않는지 묻는다.
잠재되어 있는 Data의 latent Factor를 알아보기 위한 것이므로 P(D)는 크게 고려하지 않아도 된다.
$$P(\theta|D) = {P(D|\theta)P(\theta) \over P(D)}$$
$$posterior = {Likelihood \times Prior Knowledge \over Normalizing Constant}$$
이미 우리는 $P(D|\theta) = \theta^{a_H}(1-\theta)^{a_T}$라는 사실과 $P(\theta)$를 알고 있으므로
data와 사전 정보에 의해 영향을 받는 $P(\theta|D)$를 구할 수 있다.
$P(\theta|D) = {P(D|\theta)P(\theta) \over P(D)}$에서 P(D)는 이미 발생한 확률 => 우리가 조절할 수 없는 요소 Fixed
=>P(D)는 $\theta$에 의해 영향을 받지 않는다. => Normalize Constant 취급
$P(\theta|D) \propto P(D|\theta)P(\theta)$로 표기
그럼 $P(\theta)$는 무엇일까? => 어떤 Distribution에 의존해서 표현
Beta Distribution을 제시 : 특정 범위내에서 0~1로 제한되어 있는 CDF(Cumulative Distribution Function)을 가짐
$$P(\theta) = {\theta^{\alpha-1}(1-\theta)^{\beta-1} \over B(\alpha, \beta)}$$
$$B(\alpha, \beta) = {\Gamma(\alpha)\Gamma(\beta) \over \Gamma(\alpha+\beta)}, \Gamma = (\alpha-1)!$$
$P(\theta)$ 분모에 해당하는 $B(\alpha,\beta)$는 $\theta$와 관계없는 $\alpha, \beta$에 의해 조정되는 값이므로 Normalize Constant로 생각하게 되어 비례표시에서는 삭제처리
$$P(\theta|D) \propto P(D|\theta)P(\theta) \propto \theta^{a_H+\alpha-1}(1-\theta)^{a_T+\beta-1}$$
$P(\theta|D)$와 $P(D|\theta)$는 비슷한 형태를 보임
MAP에서 $\hat{\theta}=argmax_\theta P(\theta|D)$로부터 $\theta$를 찾는 법은 MLE에서 찾는 법과 유사하다.
$P(\theta|D) \propto \theta^{a_H+\alpha-1}(1-\theta)^{a_T+\beta-1}$
$ln$을 통한 Derivative미분 극값을 찾으면 $\theta$를 찾을 수 있음
$\hat{\theta} = {a_H+\alpha -1 \over a_H+\alpha +a_T+\beta -2}$
MLE에서는 사전 정보를 넣을 방법이 없었지만 MAP를 통해서는 가능하다.
$$MLE = {a_H \over a_H+a_T}$$
$$MAP = {a_H+\alpha-1 \over a_H+\alpha+a_T+\beta-2}$$
시행 숫자가 많아지면 결과적으로 $\alpha, \beta$에 대한 사전 정보의 값이 점차 사라지고 결과적으로는 MLE와 MAP는 동일해질 것이다.
하지만 시행 숫자가 적다면 $\alpha, \beta$는 중요하다.
어떻게 $\alpha, \beta$를 구할까?는 알아서...?
추가 정보를 잘못 설정한다면 나쁜 결과가 나타날 수 있다.