要約
ゼロショット コーディネーション (ZSC) は、強化学習 (RL) エージェントが新しいパートナーと調整する能力を研究するための一般的な設定です。
以前の ZSC 定式化では、$\textit{問題設定}$ が共通の知識であることを前提としていました。各エージェントは基礎となる Dec-POMDP を知っており、他のエージェントがこの知識を持っていることも知っており、これが無限に続きます。
ただし、完全かつ正確に指定することが難しいことが多い複雑な現実世界の設定では、この仮定が成り立つことはほとんどありません。
したがって、この共通知識の前提が無効な設定では、ZSC メソッドを使用してトレーニングされたエージェントはうまく調整できない可能性があります。
この制限に対処するために、$\textit{ノイズのあるゼロショット調整}$ (NZSC) 問題を定式化します。
NZSC では、エージェントはグラウンド トゥルース Dec-POMDP のさまざまなノイズの多いバージョンを観察します。これらのバージョンは、固定ノイズ モデルに従って分散されていると想定されます。
グラウンド トゥルース Dec-POMDP の分布とノイズ モデルのみが一般的に知られています。
我々は、すべてのグラウンドトゥルース Dec-POMDP から構成される拡張状態空間をもつメタ Dec-POMDP を設計することによって、NZSC 問題を ZSC 問題に還元できることを示します。
NZSC 問題を解決するために、NZSC トレーニングと呼ばれるシンプルで柔軟なメタ学習方法を提案します。この方法では、エージェントは調整問題の分布全体にわたってトレーニングされ、ノイズの多いバージョンのみを観察することになります。
我々は、NZSC トレーニングを使用すると、調整に関する (正確な) 問題設定が一般知識ではない場合でも、RL エージェントが新規パートナーとうまく調整できるようにトレーニングできることを示します。
要約(オリジナル)
Zero-shot coordination (ZSC) is a popular setting for studying the ability of reinforcement learning (RL) agents to coordinate with novel partners. Prior ZSC formulations assume the $\textit{problem setting}$ is common knowledge: each agent knows the underlying Dec-POMDP, knows others have this knowledge, and so on ad infinitum. However, this assumption rarely holds in complex real-world settings, which are often difficult to fully and correctly specify. Hence, in settings where this common knowledge assumption is invalid, agents trained using ZSC methods may not be able to coordinate well. To address this limitation, we formulate the $\textit{noisy zero-shot coordination}$ (NZSC) problem. In NZSC, agents observe different noisy versions of the ground truth Dec-POMDP, which are assumed to be distributed according to a fixed noise model. Only the distribution of ground truth Dec-POMDPs and the noise model are common knowledge. We show that a NZSC problem can be reduced to a ZSC problem by designing a meta-Dec-POMDP with an augmented state space consisting of all the ground-truth Dec-POMDPs. For solving NZSC problems, we propose a simple and flexible meta-learning method called NZSC training, in which the agents are trained across a distribution of coordination problems – which they only get to observe noisy versions of. We show that with NZSC training, RL agents can be trained to coordinate well with novel partners even when the (exact) problem setting of the coordination is not common knowledge.
arxiv情報
著者 | Usman Anwar,Ashish Pandian,Jia Wan,David Krueger,Jakob Foerster |
発行日 | 2024-11-07 18:50:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google