Multi-Agent Inverse Q-Learning from Demonstrations

要約

報酬機能が手指定されている場合、深い強化学習アルゴリズムは、多くの場合、報酬の誤りに悩まされ、意図したタスク目標の観点から最適でないポリシーを学習します。
単一エージェントの場合、逆補強学習(IRL)手法は、専門家のデモンストレーションから報酬機能を推測することにより、この問題に対処しようとします。
ただし、マルチエージェントの問題では、環境の非定常性と複数のエージェントと拡大する分散の増加により、学習と真の目的の間の不整合が悪化します。
そのため、マルチエージェントゼネラルサムゲームでは、マルチエージェントIRLアルゴリズムは、協力的で競争力のある目標のバランスをとるのが困難です。
これらの問題に対処するために、マルチエージェントIRLの新しいサンプル効率の高いフレームワークであるデモンストレーション(MAMQL)からのマルチエージェントの限界Qラーニングを提案します。
各エージェントについて、MAMQLは他のエージェントのポリシーに疎外された批評家を学び、マルチエージェントのコンテキストでボルツマンポリシーを十分に動かして使用できるようにします。
最適な疎外された批評家とシングルエージェントソフトQ IRLの間の接続を特定し、単一エージェントドメインから直接的なシンプルな最適化基準を適用できるようにします。
3つの異なるシミュレートされたドメインでの実験全体で、MAMQLは、平均報酬、サンプル効率、報酬の回復で以前のマルチエージェントメソッドを2〜5倍以上上回ることが大幅に上回ります。
https://sites.google.com/view/mamqlでコードを利用できるようにします。

要約(オリジナル)

When reward functions are hand-designed, deep reinforcement learning algorithms often suffer from reward misspecification, causing them to learn suboptimal policies in terms of the intended task objectives. In the single-agent case, inverse reinforcement learning (IRL) techniques attempt to address this issue by inferring the reward function from expert demonstrations. However, in multi-agent problems, misalignment between the learned and true objectives is exacerbated due to increased environment non-stationarity and variance that scales with multiple agents. As such, in multi-agent general-sum games, multi-agent IRL algorithms have difficulty balancing cooperative and competitive objectives. To address these issues, we propose Multi-Agent Marginal Q-Learning from Demonstrations (MAMQL), a novel sample-efficient framework for multi-agent IRL. For each agent, MAMQL learns a critic marginalized over the other agents’ policies, allowing for a well-motivated use of Boltzmann policies in the multi-agent context. We identify a connection between optimal marginalized critics and single-agent soft-Q IRL, allowing us to apply a direct, simple optimization criterion from the single-agent domain. Across our experiments on three different simulated domains, MAMQL significantly outperforms previous multi-agent methods in average reward, sample efficiency, and reward recovery by often more than 2-5x. We make our code available at https://sites.google.com/view/mamql .

arxiv情報

著者 Nathaniel Haynam,Adam Khoja,Dhruv Kumar,Vivek Myers,Erdem Bıyık
発行日 2025-03-06 18:22:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO パーマリンク