Breaking

2019년 10월 16일 수요일

3.1. Optimal Classification Review

3.1. Optimal Classification Review

이 글은 공부를 위해 적는 것입니다.
모든 저작권은 KAIST 문일철 교수님과 Edwith에 있습니다.
강좌 URL : https://www.edwith.org/machinelearning1_17/lecture/10585/
PDF는 위 강좌 URL을 통해 무료로 다운받을 수 있습니다.
Image 파일 아래의 글들은 강의를 토대로 작성되었으며 저의 생각이 약간 감미된 경우 또한 있습니다.
Classify를 만들 수 있단는 사실은 안다.
이 때 어떤 최적화를 만드는 것이 가장 효율적인가를 알아본다.
 분류와 회귀 & 군집 Classify vs Regression & Clustering
Classification X -> Y True/False
X1이 관측되었을 때 녹색 y인 것이 높다고 판단된다면 녹색 y에 대한 분류를 한다.
X2이 관측되었을 때 빨간색 y인 것이 높다고 판단된다면 빨간색 y에 대한 분류를 한다.
X를 넣어서 예측한 P(X)=y는 error 때문에 거짓 term일 가능성이 있다
$f^* = argmin_f P(f(X) \ne Y) = argmin_f P(\hat{y} \ne Y)$
=> error를 줄이기 위한 방안을 고안하라!
Error에 대한 Function을 Approximation
$f^*(x) = argmax_{Y=y}P(Y=y|X=x)$ 확률밀도함수를 구하라.
확률을 계산하는 방법 2가지 : MLE, MAP
MAP : $\alpha, \beta$ 추가를 통해 값을 구함
MLE, MAP를 이용해서 어떻게 하면 더 좋은 Classification이 가능하게 할 것인가
점선끼리 쌍, 실선끼리 쌍
녹색이 높은 곳에 X1이 존재한다면
점선 : 녹색점선확률 P1+ 빨간점선확률 P2 = 1
실선 : 녹색실선확률 P3+ 빨간실선확률 P4 = 1

중앙이 되는 쪽은 0.5의 확률 
X=중앙 => Decision Boundary

점선보다 실선이 더 낫다.
점선의 경우 P1과 P2 확률의 차이보다 실선에서 P3와 P4 사이의 차이가 크므로 
더 확실히 분류해준다.

Decision Boundary를 기준으로 왼쪽은 녹색으로 분류하기 때문에
빨간색 아래 부분은 Error
실선 Error가 점선 Error보다 작다
Logistic Function을 사용해서 작게 만들 수 있다.
P(Y=y|X=x) => Bayesian's Rule을 통해 P(X=x|Y=y)P(Y=y)