1. QMIX 원본
https://arxiv.org/abs/1803.11485
QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning
In many real-world settings, a team of agents must coordinate their behaviour while acting in a decentralised way. At the same time, it is often possible to train the agents in a centralised fashion in a simulated or laboratory setting, where global state
arxiv.org
https://arxiv.org/abs/2003.08839
Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning
In many real-world settings, a team of agents must coordinate its behaviour while acting in a decentralised fashion. At the same time, it is often possible to train the agents in a centralised fashion where global state information is available and communi
arxiv.org
2. Review
https://ropiens.tistory.com/112
QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement Learning 리뷰
QMIX는 저번 COMA리뷰에 이은 2번째 멀티에이전트 강화학습에 대한 논문리뷰입니다. QMIX에 대해 공부할때는 크게 3가지 자료를 보시면 많이 도움이 되는데요, 1. 원 논문 arxiv.org/abs/1803.11485 QMIX: Monot
ropiens.tistory.com
https://leejungi.github.io/posts/QMIX/
(Rashid 2018 ICML) Qmix; Monotonic value function factorisation for deep multi-agent reinforcement learning
목차
leejungi.github.io
3. 정리
Multi Agent System Learning
- Competitive
- Cooperative
MAS chanllenge
- agent의 action을 모두 다루는 policy -> agent의 수에 비례해서 policy 크기가 exponetial하게 커짐
- agent가 항상 다른 모든 agent의 state와 action을 아는 것은 불가능함
-> 따라서, decentralized policy가 필요하게 됨
Decentralized policy
- Independent Q Learning, IQL
모든 agent가 각자의 policy와 action-value function에 따라서 greedy하게 action을 선택하면, 전체적으로도 optimal해진다.
쉽고 간단하다는 장점이 있지만, 특정 non-stationary case를 해결하지 못한다.
- Counterfactual multi-agent policy gradients, COMA
$Q_{tot}$을 학습해서, 이를 가이드로 삼아 각 agent의 policy를 업데이트하는 방식(actor-critic)이다. 그러나 on-policy learning을 필요로하며, agents 수가 많아지면 centralized critic learning은 불가능해진다.
- Value Decomposing Network, VDN
IQN과 COMA를 섞은 방법이다. 모든 agent가 각자의 policy에 따라 greedy하게 행동하고 얻은 action-value function을 합쳐서 $Q_{tot}$을 만든다. $Q_{tot}$을 학습해서 policy를 수정하는 방법이다.
Centralized 하게 학습할 수 있지만, agent의 action이 Factored action-value function이다. 이때문에, centralized $Q_{tot}$의 complexity표현이 제한적이라는 단점이 있다. 그리고 global state information을 이용하지 못하는 단점을 가지고 있다.
QMIX
VDN을 발전시킨, QMIX는 full factorization of VDN이 필요하지 않다. VDN의 성질을 가지고 가되, 한 가지 제한을 추가한다.
QMIX의 조건으로 세웠던 가정이다. VDN에서도 위 조건은 만족할 수 있다. QMIX는 이 가정을 한번 더 일반화시킨다.
만약 이 조건을 만족하도록 action을 선택한다면, 위의 조건을 만족한다.
QMIX architecture
$Q_{tot}$은 agent network, mixing network, hypernetwork로 구성된다.
QMIX, agent network
DRQN을 이용한다. Current individual observation $o^{a}_{t}$와 last action $u^{a}_{t-1}$을 input으로 받아서 $Q_{a}(\tau ^{a}, u^{a}_{t})$를 나타낸다.
QMIX, mixing network
Feed forward neural network로 구성되며 Hypernetwork를 이용한다. 각 hypernetwork는 $s_{t}$를 mixing network에서의 weight로 바꿔서 사용한다. Monotonicity constraint를 만족하기 위해서, 바뀌는 weight는 absolute activation function에 의해 non-negative로 제한한다. (Negative=0, by ReLU) 이렇게 함으로, mixing network가 어떤 monotonic function도 예측할 수 있게 된다.
$s_{t}$를 mixing network에 바로 사용하지 않는 이유는 $Q_{tot}$이 non monotonic way에 있는 extra state information을 활용할 수 있기 때문에, monotonic network에 overly constraining일 수 있기 때문이다. 대신 hypernetwork를 사용함으로 s를 임의의 weight로 넘겨 flexible하게 사용할 수 있게 된다.
QMIX algorithm
4. Related work
[PAPER REVIEW] QTran: Learning to Factorize with Transformation
As explained by Kasim Te and Yajie Zhou.
www.kasimte.com
'Study > Reinforcement Learning' 카테고리의 다른 글
4. Monte Carlo Methods and Temporal Difference Learning in Policy Evaluation (0) | 2023.05.01 |
---|---|
3. Policy Improvement by Iterative Method (0) | 2023.05.01 |
2. Bellman equation and MDP (0) | 2023.05.01 |
1.Introduction (0) | 2023.05.01 |