2019년 10월 7일 월요일

Home 문일철 인공지능 및 기계학습 개론 1 AI AI Course Edwith Machine Learning 1.3 MAP Review

1.3 MAP Review

냥냥펀치 10월 07, 2019 ,문일철 ,인공지능 및 기계학습 개론 1 ,AI ,AI Course ,Edwith ,Machine Learning

1.3 MAP Review

이 글은 공부를 위해 적는 것입니다.
모든 저작권은 KAIST 문일철 교수님과 Edwith에 있습니다.
강좌 URL : https://www.edwith.org/machinelearning1_17/lecture/10576/
PDF는 위 강좌 URL을 통해 무료로 다운받을 수 있습니다.
Image 파일 아래의 글들은 강의를 토대로 작성되었으며 저의 생각이 약간 감미된 경우 또한 있습니다.

배운점

Posteriror Probability = Bayesian's Rule
비례일 때 Normalize Constant를 다루는 법
Beta Distribution
MAP(Maximum a Posterior Estimation)
MLE와 MAP는 어떤 때 같아질까?

캡션 추가

Bayes라는 사람은 Head가 나올 확률에 대해 50%라고 생각하지 않는지 묻는다.
잠재되어 있는 Data의 latent Factor를 알아보기 위한 것이므로 P(D)는 크게 고려하지 않아도 된다.

$P(\theta|D) = {P(D|\theta)P(\theta) \over P(D)}$

$posterior = {Likelihood \times Prior Knowledge \over Normalizing Constant}$
이미 우리는

$P(D|\theta) = \theta^{a_H}(1-\theta)^{a_T}$ 라는 사실과

$P(\theta)$ 를 알고 있으므로
data와 사전 정보에 의해 영향을 받는

$P(\theta|D)$ 를 구할 수 있다.

$P(\theta|D) = {P(D|\theta)P(\theta) \over P(D)}$ 에서 P(D)는 이미 발생한 확률 => 우리가 조절할 수 없는 요소 Fixed
=>P(D)는

$\theta$ 에 의해 영향을 받지 않는다. => Normalize Constant 취급

$P(\theta|D) \propto P(D|\theta)P(\theta)$ 로 표기
그럼

$P(\theta)$ 는 무엇일까? => 어떤 Distribution에 의존해서 표현
Beta Distribution을 제시 : 특정 범위내에서 0~1로 제한되어 있는 CDF(Cumulative Distribution Function)을 가짐

$P(\theta) = {\theta^{\alpha-1}(1-\theta)^{\beta-1} \over B(\alpha, \beta)}$

$B(\alpha, \beta) = {\Gamma(\alpha)\Gamma(\beta) \over \Gamma(\alpha+\beta)}, \Gamma = (\alpha-1)!$

$P(\theta)$ 분모에 해당하는

$B(\alpha,\beta)$ 는

$\theta$ 와 관계없는

$\alpha, \beta$ 에 의해 조정되는 값이므로 Normalize Constant로 생각하게 되어 비례표시에서는 삭제처리

$P(\theta|D) \propto P(D|\theta)P(\theta) \propto \theta^{a_H+\alpha-1}(1-\theta)^{a_T+\beta-1}$

$P(\theta|D)$ 와

$P(D|\theta)$ 는 비슷한 형태를 보임

MAP에서

$\hat{\theta}=argmax_\theta P(\theta|D)$ 로부터

$\theta$ 를 찾는 법은 MLE에서 찾는 법과 유사하다.

$P(\theta|D) \propto \theta^{a_H+\alpha-1}(1-\theta)^{a_T+\beta-1}$

$ln$ 을 통한 Derivative미분 극값을 찾으면

$\theta$ 를 찾을 수 있음

$\hat{\theta} = {a_H+\alpha -1 \over a_H+\alpha +a_T+\beta -2}$
MLE에서는 사전 정보를 넣을 방법이 없었지만 MAP를 통해서는 가능하다.

$MLE = {a_H \over a_H+a_T}$

$MAP = {a_H+\alpha-1 \over a_H+\alpha+a_T+\beta-2}$
시행 숫자가 많아지면 결과적으로

$\alpha, \beta$ 에 대한 사전 정보의 값이 점차 사라지고 결과적으로는 MLE와 MAP는 동일해질 것이다.
하지만 시행 숫자가 적다면

$\alpha, \beta$ 는 중요하다.
어떻게

$\alpha, \beta$ 를 구할까?는 알아서...?
추가 정보를 잘못 설정한다면 나쁜 결과가 나타날 수 있다.

Breaking

2019년 10월 7일 월요일

1.3 MAP Review

1.3 MAP Review

전체 페이지뷰

Archive

페이지

About Me

Recent News

POPULAR TAGS

Send Quick Message

Breaking

2019년 10월 7일 월요일

1.3 MAP Review

1.3 MAP Review

1.3 MAP Review

1.1 Motivations Review

전체 페이지뷰

Archive

페이지

About Me

Recent News

POPULAR TAGS

Send Quick Message