要約
マルチエージェント システムにおける勾配ベースの学習は、勾配がエージェントの学習プロセス間の相互作用を考慮していない 1 次モデルから導出されるため、困難です。
LOLA (arXiv:1709.04326) は、最適化の 1 ステップを通じて差別化することでこれを説明します。
私たちは、将来の最適化反復の利益を割引いた合計であるメタ値によって測定される長期的な見通しによって共同政策を判断することを提案します。
ポリシー更新の継続的なアクション空間を明示的に表す必要性を回避する方法で、Q 学習の形式を最適化のメタゲームに適用します。
結果として得られる手法である MeVa は、一貫性があり先見の明があり、REINFORCE 推定器を必要としません。
おもちゃのゲームでのメソッドの動作を分析し、反復マトリックス ゲームでの以前の研究と比較します。
要約(オリジナル)
Gradient-based learning in multi-agent systems is difficult because the gradient derives from a first-order model which does not account for the interaction between agents’ learning processes. LOLA (arXiv:1709.04326) accounts for this by differentiating through one step of optimization. We propose to judge joint policies by their long-term prospects as measured by the meta-value, a discounted sum over the returns of future optimization iterates. We apply a form of Q-learning to the meta-game of optimization, in a way that avoids the need to explicitly represent the continuous action space of policy updates. The resulting method, MeVa, is consistent and far-sighted, and does not require REINFORCE estimators. We analyze the behavior of our method on a toy game and compare to prior work on repeated matrix games.
arxiv情報
| 著者 | Tim Cooijmans,Milad Aghajohari,Aaron Courville |
| 発行日 | 2023-12-11 16:52:51+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google