Loading [MathJax]/jax/output/HTML-CSS/jax.js

1. Types of Machine Learning(ML)

 

 

2. Sequential decision making

Each time step t:

  1. Agent takes an action at
  2. Environment updates with new state and emits observation, ot and reward, rt
  3. Agent receives ot and rt

 

 

3. History

ht = (a1,o1,r1,,,,at,ot,rt)

 

 

4. World state 

Agent state와 다름. 실제 세계

 

 

5. Agent state

st=f(ht)=(a1,o1,r1,,,,at,ot,rt)

History로부터 현재 state가 결정됨

 

 

6. Markov Assumption

p(st+1|st,at)=p(st+1|ht,at)

History를 간략화하는 것으로, st=ht임을 통해 바로 이전 state를 참고해 next state를 결정하는 것이다.

참고하는 정도에 따라 nst Markov assumption이 된다.

 

 

7. Markov Process(Chain)

Finding a steady state distribution이 목적이다.

 

 

8. Markov Reward Process, MRP

Markcov Chain에 reward가 추가된 경우이다.

(S, T, R, γ)를 사용한다. (0<γ<1)

 

 

9. Markov Decision Process, MDP

MRP에 action이 추가된 경우이다.

(S, A, T, R, γ)를 사용한다.

 

 

10. Full vs Partial Observability MDP

Full MDP ot=st
Partial Observabilit MDP, POMDP World state != Agent state

 

 

11. Elements of RL algorithm

Model Agent의 action에 따른 world의 변화

 - Transition model
Agent의 next state를 예측
p(st+1|st,at)

 - Reward model
immediate reward를 예측
r(st,at,st+1)
Policy Agent의 state에 따른 action

 - Deterministic policy
π(s)=a

 - Stochastic policy
π(a|s)=p(at|st)
Value function Agent의 state와 action에 따른 기댓값
state, action의 좋음을 판별하는데 사용됨
V의 sum을 통해 policy를 판별하는데 사용됨

Vπ(st)=Eπ[rt+γrt+1+γ2rt+2+...|st]

 

 

12. Return

G=R(s0,s1,,,,)=r(s0)+γr(s1)+γ2r(s2)+...

reward가 bounded면 return도 bounded.

γ->1이면 infinite일 수 있음.

 

 

13. Types of RL Agents

Model based Model free
Model이 주어짐.
Model을 이용해 optimal policy를 찾음.
Policy나 Value function이 없을 수 있음.
Model이 없음.
Policy나 Value function 중 하나가 있어야함.
Model 학습 없이 optimal policy를 찾을 수 있음.
Model을 표현하기 어려울 때, 주로 사용함.

 

 

14. Planning vs RL

Planning RL
rule이나 model을 알고 있음
Dynamica programming이나 tree search 등을 통해 optimal action을 선택할 수 있음.
rule이나 model을 전부 다 알지 못함.
World와의 상호작용을 통해 policy를 개선함.

 

 

15. Exploration vs Exploitation

Exploration Exploitation
Agent가 더 좋은 decision을 내릴 수 있도록, 새로운 action을 시도함. Agent가 과거의 경험을 참고해, 좋은 reward를 주었던 action을 선택함.

trade-off 관계이다. 예를 들어, Exploration을 많이 할수록, 발전성이 높아지지만, 안정성이 떨어지게 된다.

 

 

16. Evaluation vs Control

Evaluation Control
Given policy에 대한 expected reward 예측 Optimal policy 찾기