Breaking

2019년 10월 12일 토요일

2.5. How to create a decision tree given a training dataset Review

2.5. How to create a decision tree given a training dataset Review


이 글은 공부를 위해 적는 것입니다.
모든 저작권은 KAIST 문일철 교수님과 Edwith에 있습니다.
강좌 URL :
PDF는 위 강좌 URL을 통해 무료로 다운받을 수 있습니다.
Image 파일 아래의 글들은 강의를 토대로 작성되었으며 저의 생각이 약간 감미된 경우 또한 있습니다.

배운점
  • Linear Regression 회귀 분석
  • Optimize ˆθ=argminθ(θTXTXθ2θTXTY)
  • θ=(XTX)1XTY
Rule 기반이 나닌 통계적 기반으로 접근
Housing Information : 13 numerical independent values, 1 numerical dependent value
머신러닝이란 Probably Approximately Correct한 funtion을 Learning하는 것
Linear한 형태로 Approximation
Hypothesis <-> Decision Tree로 바꿀 수 있다
다른 형태의 hypothesis : function의 형태로 세워보자
h:ˆf(x;θ)=θ0+ni=1θixi=ni=0θixi
dependent x에 따른 가정을 결정 : 점점 더 복잡한 형태로
두 가지 관점 : Linear(건드리지 않음), parameter θ(잘 조절하면 Approximation 가능)

θ 잘 설정해보자
h:ˆf(x;θ)=ni=0θixi>ˆf=Xθ
X=(1x1n1xDn),θ=(θ0θ1θn)
실제 f는 error 값이 포함하고 있다.
f(x;θ)=ni=0θixi+e=y>f=Xθ+e=Y
error가 없어진 f를 ˆf f hat 이라 명명
X는 데이터 이므로 고정된 것
θ를 잘 조절해보자 -> 추정
ˆθ=argminθ(fˆf)2=argminθ(YXθ)2=argminθ(YXθ)T(YXθ)
=argminθ(θTXTXθ2θTXTY+YTY)
=argminθ(θTXTXθ2θTXTY)
YTYθ를 포함하지 않은 상수 구간 <= 사라져도 됨 이유 : 우리는 θ를 최적화하는 것을 신경쓰므로



θ=argminθ(θTXTXθ2θTXTY)
극점을 사용, 미분을 사용하면 최적화를 사용할 수 있다.
미분
(θTXTXθ2θTXTY)=0
2XTXθ2XTY=0
θ=(XTX)1XTY
X,Y를 전부 알고 있으므로 최적화시킬 수 있음
outlier 부분을 직선으로 표현하기가 어려움
x2,x3,x4 다항식을 추가하여 변수에 맞는 phi(x)를 만들어보자.
h:ˆf(x;θ)=ni=0mj=1θi,jϕj(xj)
outlier를 위해 승수를 높이는 것은 Decision Tree에서의 Node 개수를 늘리는 것이다
그런데 과연 몇 개 없는 숫자를 위해 승수를 높여 최적화를 구하는 것은 바람직하지 않아보인다.
억지스럽게 만듬 : Overfit


1. Decision tree의 root attribute를 선정할 때의 기준으로 바람직한 것은?
=> Information gain이 가장 높은 것


2. 4개의 positive example가 있고 7개의 negative example가 있을 때 entropy를 계산하시오.
=> Entropy = 411log2411711log2711=0.95

3. Linear Regression 문제 해결. 데이터 X=[111213],Y=[264]이고, optimal ˆθ=[θ1θ2]일 때, θ1+θ2를 구하라

=> (XTX)1XTY=16[14663][111123][264]=[21]