2.5. How to create a decision tree given a training dataset Review
이 글은 공부를 위해 적는 것입니다.
모든 저작권은 KAIST 문일철 교수님과 Edwith에 있습니다.
강좌 URL :
PDF는 위 강좌 URL을 통해 무료로 다운받을 수 있습니다.
Image 파일 아래의 글들은 강의를 토대로 작성되었으며 저의 생각이 약간 감미된 경우 또한 있습니다.
배운점
- Linear Regression 회귀 분석
- Optimize ˆθ=argminθ(θTXTXθ−2θTXTY)
- θ=(XTX)−1XTY
Housing Information : 13 numerical independent values, 1 numerical dependent value
머신러닝이란 Probably Approximately Correct한 funtion을 Learning하는 것
Linear한 형태로 Approximation
Hypothesis <-> Decision Tree로 바꿀 수 있다
다른 형태의 hypothesis : function의 형태로 세워보자
h:ˆf(x;θ)=θ0+∑ni=1θixi=∑ni=0θixi
dependent x에 따른 가정을 결정 : 점점 더 복잡한 형태로
두 가지 관점 : Linear(건드리지 않음), parameter θ(잘 조절하면 Approximation 가능)
θ 잘 설정해보자
h:ˆf(x;θ)=∑ni=0θixi−>ˆf=Xθ
X=(1⋯x1n⋮⋱⋮1⋯xDn),θ=(θ0θ1⋯θn)
실제 f는 error 값이 포함하고 있다.
f(x;θ)=∑ni=0θixi+e=y−>f=Xθ+e=Y
error가 없어진 f를 ˆf f hat 이라 명명
X는 데이터 이므로 고정된 것
θ를 잘 조절해보자 -> 추정
ˆθ=argminθ(f−ˆf)2=argminθ(Y−Xθ)2=argminθ(Y−Xθ)T(Y−Xθ)
=argminθ(θTXTXθ−2θTXTY+YTY)
=argminθ(θTXTXθ−2θTXTY)
YTY는 θ를 포함하지 않은 상수 구간 <= 사라져도 됨 이유 : 우리는 θ를 최적화하는 것을 신경쓰므로

θ=argminθ(θTXTXθ−2θTXTY)
극점을 사용, 미분을 사용하면 최적화를 사용할 수 있다.
미분
∇(θTXTXθ−2θTXTY)=0
2XTXθ−2XTY=0
θ=(XTX)−1XTY
X,Y를 전부 알고 있으므로 최적화시킬 수 있음
outlier 부분을 직선으로 표현하기가 어려움
x2,x3,x4 다항식을 추가하여 변수에 맞는 phi(x)를 만들어보자.
h:ˆf(x;θ)=∑ni=0∑mj=1θi,jϕj(xj)
outlier를 위해 승수를 높이는 것은 Decision Tree에서의 Node 개수를 늘리는 것이다
그런데 과연 몇 개 없는 숫자를 위해 승수를 높여 최적화를 구하는 것은 바람직하지 않아보인다.
억지스럽게 만듬 : Overfit
1. Decision tree의 root attribute를 선정할 때의 기준으로 바람직한 것은?
=> Information gain이 가장 높은 것
2. 4개의 positive example가 있고 7개의 negative example가 있을 때 entropy를 계산하시오.
=> Entropy = −411log2411−711log2711=0.95
3. Linear Regression 문제 해결. 데이터 X=[111213],Y=[264]이고, optimal ˆθ=[θ1θ2]일 때, θ1+θ2를 구하라
=> (XTX)−1XTY=16[14−6−63][111123][264]=[21]