1. Types of Machine Learning(ML)

 

 

2. Sequential decision making

Each time step t:

  1. Agent takes an action $a_{t}$
  2. Environment updates with new state and emits observation, $o_{t}$ and reward, $r_{t}$
  3. Agent receives $o_{t}$ and $r_{t}$

 

 

3. History

$h_{t}$ = $(a_{1}, o_{1}, r_{1}, ,,, a_{t}, o_{t}, r_{t})$

 

 

4. World state 

Agent state와 다름. 실제 세계

 

 

5. Agent state

$s_{t} = f(h_{t}) = (a_{1}, o_{1}, r_{1}, ,,, a_{t}, o_{t}, r_{t})$

History로부터 현재 state가 결정됨

 

 

6. Markov Assumption

$p(s_{t+1}|s_{t}, a_{t}) = p(s_{t+1}|h_{t}, a_{t})$

History를 간략화하는 것으로, $s_{t} = h_{t}$임을 통해 바로 이전 state를 참고해 next state를 결정하는 것이다.

참고하는 정도에 따라 $n^{st}$ Markov assumption이 된다.

 

 

7. Markov Process(Chain)

Finding a steady state distribution이 목적이다.

 

 

8. Markov Reward Process, MRP

Markcov Chain에 reward가 추가된 경우이다.

(S, T, R, $\gamma$)를 사용한다. ($0 < \gamma < 1$)

 

 

9. Markov Decision Process, MDP

MRP에 action이 추가된 경우이다.

(S, A, T, R, $\gamma$)를 사용한다.

 

 

10. Full vs Partial Observability MDP

Full MDP $o_{t} = s_{t}$
Partial Observabilit MDP, POMDP World state != Agent state

 

 

11. Elements of RL algorithm

Model Agent의 action에 따른 world의 변화

 - Transition model
Agent의 next state를 예측
$p(s_{t+1}|s_{t}, a_{t})$

 - Reward model
immediate reward를 예측
$r(s_{t}, a_{t}, s_{t+1})$
Policy Agent의 state에 따른 action

 - Deterministic policy
$\pi(s) = a$

 - Stochastic policy
$\pi(a|s) = p(a_{t}|s_{t})$
Value function Agent의 state와 action에 따른 기댓값
state, action의 좋음을 판별하는데 사용됨
V의 sum을 통해 policy를 판별하는데 사용됨

$V^{\pi}(s_{t}) = E_{\pi}[r_{t}+\gamma r_{t+1}+\gamma^{2} r_{t+2}+...|s_{t}]$

 

 

12. Return

$G = R(s_{0}, s_{1},,,,) = r(s_{0})+\gamma*r(s_{1})+\gamma^{2}r(s_{2})+...$

reward가 bounded면 return도 bounded.

$\gamma$->1이면 infinite일 수 있음.

 

 

13. Types of RL Agents

Model based Model free
Model이 주어짐.
Model을 이용해 optimal policy를 찾음.
Policy나 Value function이 없을 수 있음.
Model이 없음.
Policy나 Value function 중 하나가 있어야함.
Model 학습 없이 optimal policy를 찾을 수 있음.
Model을 표현하기 어려울 때, 주로 사용함.

 

 

14. Planning vs RL

Planning RL
rule이나 model을 알고 있음
Dynamica programming이나 tree search 등을 통해 optimal action을 선택할 수 있음.
rule이나 model을 전부 다 알지 못함.
World와의 상호작용을 통해 policy를 개선함.

 

 

15. Exploration vs Exploitation

Exploration Exploitation
Agent가 더 좋은 decision을 내릴 수 있도록, 새로운 action을 시도함. Agent가 과거의 경험을 참고해, 좋은 reward를 주었던 action을 선택함.

trade-off 관계이다. 예를 들어, Exploration을 많이 할수록, 발전성이 높아지지만, 안정성이 떨어지게 된다.

 

 

16. Evaluation vs Control

Evaluation Control
Given policy에 대한 expected reward 예측 Optimal policy 찾기