要約
私たちは、マルチエージェント模倣学習 (MAIL) 問題を研究します。ここでは、専門家のデモンストレーションに基づいてエージェントのグループを調整しようとする学習者の視点をとります。
MAIL に関するこれまでの研究のほとんどは、基本的に、デモンストレーションのサポート内での専門家の動作の一致に問題を帰着させます。
そうすることで、エージェントが非戦略的であるという仮定の下で、学習者と専門家の価値観のギャップをゼロにするのに十分ですが、戦略的エージェントによる逸脱に対する堅牢性は保証されません。
直観的に言えば、これは戦略的逸脱が反事実の量、つまりコーディネーターの推奨が誘発する州分布の外に依存する可能性があるためである。
これに応じて、グループ内のエージェントによる潜在的な逸脱を明示的に説明する、マルコフ ゲームでの MAIL の代替目標の研究を開始します。これを後悔ギャップと呼びます。
まず、価値と後悔のギャップの間の関係を徹底的に調査します。
まず、単一エージェント IL アルゴリズムの直接拡張によって価値のギャップを効率的に最小化できる一方で、価値の同等性であっても任意に大きなリグレス ギャップが生じる可能性があることを示します。
これは、MAIL で後悔の同等性を達成することは、価値の同等性を達成するよりも難しいことを意味します。
次に、(a) エキスパートのカバレッジ仮定の下で (MALICE)、または (b) クエリ可能なエキスパートへのアクセスを使用して (BLADES)、リグレット ギャップを最小限に抑えることができる、ノーリグレット オンライン凸最適化への効率的な削減のペアを提供します。
要約(オリジナル)
We study a multi-agent imitation learning (MAIL) problem where we take the perspective of a learner attempting to coordinate a group of agents based on demonstrations of an expert doing so. Most prior work in MAIL essentially reduces the problem to matching the behavior of the expert within the support of the demonstrations. While doing so is sufficient to drive the value gap between the learner and the expert to zero under the assumption that agents are non-strategic, it does not guarantee robustness to deviations by strategic agents. Intuitively, this is because strategic deviations can depend on a counterfactual quantity: the coordinator’s recommendations outside of the state distribution their recommendations induce. In response, we initiate the study of an alternative objective for MAIL in Markov Games we term the regret gap that explicitly accounts for potential deviations by agents in the group. We first perform an in-depth exploration of the relationship between the value and regret gaps. First, we show that while the value gap can be efficiently minimized via a direct extension of single-agent IL algorithms, even value equivalence can lead to an arbitrarily large regret gap. This implies that achieving regret equivalence is harder than achieving value equivalence in MAIL. We then provide a pair of efficient reductions to no-regret online convex optimization that are capable of minimizing the regret gap (a) under a coverage assumption on the expert (MALICE) or (b) with access to a queryable expert (BLADES).
arxiv情報
著者 | Jingwu Tang,Gokul Swamy,Fei Fang,Zhiwei Steven Wu |
発行日 | 2024-06-06 16:18:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google