CS234 Winter 2019 6강 - CNNs and Deep Q Learning 공부

CS234 Winter 2019 6강

- CNNs and Deep Q Learning 공부

강의 슬라이드 : http://web.stanford.edu/class/cs234/schedule.html
기록을 위한 것이지 보여지기 위한 것이 아닙니다.
RL 초보자이기 때문에 이해한 것이 정답과 다를 수 있습니다.
더불어 한 번에 완성되는 글이 아니기에 글이 없을 수도 있음을 알려드립니다.
Copyright to Stanford CS & Emma brunskill

Table of Contents
1. Convolutional Neural Nets(CNNs)
2. Deep Q Learning

Last Time : Value Function Approximation
This Time : RL with function Approximation, deep RL

tackle 1. (힘든 문제상황과) 씨름하다 2. (문제힘든 상황에 대해) 솔직하게 말하다
우리는 고차원의 input signals과 관찰결과들Observations 을 토대로 자율 주행, 아타리 게임 등과 같은 곳에 강화학습을 학습시키는 것과 많은 고심을 하고 있다.

오늘 우리는 거대한 action space보다 large state space에 대해 많은 이야기들을 나눌 것

똑같은 상태나 똑같은 env 이미지들을 받지 않을 것이기에 우리는 과거 경험으로부터 일반화 generalization 할 필요가 있다.

우리는 미분가능한 function approximation에 집중할 것(당연한 이야기)
loss minimize weight 찾기위한 optimizer를 위해 미분은 당연한 것

Oracle에 의한 Naive한 식

잘 작동함에도 불구하고 linear combination 형태는 문제점을 내포

feature들에 대한 손을 많이 봐야만 linear VFA가 잘 작동
K-Nearest-Neighbor : non-parametic method

일반적으로 linear와 non-linear transformation을 같이 사용
activation function으로 ReLU가 가장 유명
MSE, log likelihood와 같은 loss function은 parameter을 조절하기 위해 필요

CNN은 CV에서 광범위하게 활용하고 있다.
이를 통한 시각적 입력 visual input의 통찰을 통해 pixel들로부터 결정을 하는데 영향력을 끼친다.

Images have Structure
- Have local structure and correlation
- Have distinctive features in space & frequency domains

28x28 input image -> 24x24 hidden layer, 5x5 Receptive field

input에 고차원 입력값을 넣음
ex) image and output scalar like Q value

2. Deep Q Learning

1995~1998 function approximation + off-policy control + bootstrapping 수렴에 실패
설령 수렴할지라도 성능이 좋지 못함 때문에 간단한 경우에서도 실패하는 경우가 많았다.

그러다 2000년 중반부터 현재까지 DNN부터
~2014 DeepMind
나쁜 결과를 보일 수도 있고 수렴하지 않는 경우들도 있지만 수렴에 대해서는 확신을 가짐
물론 optimal policy 수령성은 때때로 보장하지 못할 경우도 있지만

Deep Reinforcement Learning
Use deep neural networks to represent
- Value Function, Policy, Model
Optimize loss function by SGD