3. Policy Improvement by Iterative Method
1. Policy Iteration 초기 Policy에서 시작해서 Policy Evaluation, Policy Improvement를 반복하여 Optimal policy를 찾는 방법이다. 1.1. Policy Evaluation $Q^{\pi}(s,a) = R(s,a) + \gamma \sum_{s'}p(s'|s,a)V^{\pi}(s')$ $V^{\pi}(s) = \sum_{a} \pi(a|s)Q^{\pi}(s,a)$ State-value function이 $V_{\pi}$수렴할때까지 계속 evaluate하거나, 한번만 하고 Policy Improvement로 넘어가도 된다. 1.2. Policy Improvement (control) $Q^{\pi}(s,a) = R(s,a) + \gamma \sum_..
2023.05.01