1.3 MAP Review
이 글은 공부를 위해 적는 것입니다.모든 저작권은 KAIST 문일철 교수님과 Edwith에 있습니다.
강좌 URL : https://www.edwith.org/machinelearning1_17/lecture/10576/
PDF는 위 강좌 URL을 통해 무료로 다운받을 수 있습니다.
Image 파일 아래의 글들은 강의를 토대로 작성되었으며 저의 생각이 약간 감미된 경우 또한 있습니다.
배운점
- Posteriror Probability = Bayesian's Rule
- 비례일 때 Normalize Constant를 다루는 법
- Beta Distribution
- MAP(Maximum a Posterior Estimation)
- MLE와 MAP는 어떤 때 같아질까?
![]() |
캡션 추가 |

Bayes라는 사람은 Head가 나올 확률에 대해 50%라고 생각하지 않는지 묻는다.
잠재되어 있는 Data의 latent Factor를 알아보기 위한 것이므로 P(D)는 크게 고려하지 않아도 된다.
P(θ|D)=P(D|θ)P(θ)P(D)
posterior=Likelihood×PriorKnowledgeNormalizingConstant
이미 우리는 P(D|θ)=θaH(1−θ)aT라는 사실과 P(θ)를 알고 있으므로
data와 사전 정보에 의해 영향을 받는 P(θ|D)를 구할 수 있다.
P(θ|D)=P(D|θ)P(θ)P(D)에서 P(D)는 이미 발생한 확률 => 우리가 조절할 수 없는 요소 Fixed
=>P(D)는 θ에 의해 영향을 받지 않는다. => Normalize Constant 취급
P(θ|D)∝P(D|θ)P(θ)로 표기
그럼 P(θ)는 무엇일까? => 어떤 Distribution에 의존해서 표현
Beta Distribution을 제시 : 특정 범위내에서 0~1로 제한되어 있는 CDF(Cumulative Distribution Function)을 가짐
P(θ)=θα−1(1−θ)β−1B(α,β)
B(α,β)=Γ(α)Γ(β)Γ(α+β),Γ=(α−1)!
P(θ) 분모에 해당하는 B(α,β)는 θ와 관계없는 α,β에 의해 조정되는 값이므로 Normalize Constant로 생각하게 되어 비례표시에서는 삭제처리
P(θ|D)∝P(D|θ)P(θ)∝θaH+α−1(1−θ)aT+β−1
P(θ|D)와 P(D|θ)는 비슷한 형태를 보임
MAP에서 ˆθ=argmaxθP(θ|D)로부터 θ를 찾는 법은 MLE에서 찾는 법과 유사하다.
P(θ|D)∝θaH+α−1(1−θ)aT+β−1
ln을 통한 Derivative미분 극값을 찾으면 θ를 찾을 수 있음
ˆθ=aH+α−1aH+α+aT+β−2
MLE에서는 사전 정보를 넣을 방법이 없었지만 MAP를 통해서는 가능하다.
MLE=aHaH+aT
MAP=aH+α−1aH+α+aT+β−2
시행 숫자가 많아지면 결과적으로 α,β에 대한 사전 정보의 값이 점차 사라지고 결과적으로는 MLE와 MAP는 동일해질 것이다.
하지만 시행 숫자가 적다면 α,β는 중요하다.
어떻게 α,β를 구할까?는 알아서...?
추가 정보를 잘못 설정한다면 나쁜 결과가 나타날 수 있다.