Making Universal Policies Universal

要約

幅広い連続した意思決定タスクを解決できるジェネラリストのエージェントの開発は、依然として大きな課題です。
エージェントが同じ観測スペースを共有しているが、アクションスペースが異なるクロスエージェントセットアップでこの問題に対処します。
私たちのアプローチは、ポリシー学習を2つの段階に切り離すユニバーサルポリシーフレームワークに基づいています。観測シーケンスを生成する拡散ベースのプランナーと、これらの計画にアクションを割り当てる逆ダイナミクスモデルです。
すべてのエージェントからの軌跡で構成される共同データセットでプランナーをトレーニングする方法を提案します。
この方法は、さまざまなエージェントからのデータをプールすることにより肯定的な転送の利点を提供しますが、主な課題は、共有計画を各エージェントの独自の制約に適応させることにあります。
babyai環境でのアプローチを評価し、さまざまな複雑さのタスクをカバーし、エージェント間の肯定的な転送を示します。
さらに、目に見えないエージェントに対するプランナーの一般化能力を調べ、私たちの方法を従来の模倣学習アプローチと比較します。
複数のエージェントからのプールされたデータセットでトレーニングすることにより、当社のユニバーサルポリシーは、単一のエージェントからのデータセットでトレーニングされたポリシーと比較して、タスク完了の精度で最大42.20ドル\%$の改善を達成します。

要約(オリジナル)

The development of a generalist agent capable of solving a wide range of sequential decision-making tasks remains a significant challenge. We address this problem in a cross-agent setup where agents share the same observation space but differ in their action spaces. Our approach builds on the universal policy framework, which decouples policy learning into two stages: a diffusion-based planner that generates observation sequences and an inverse dynamics model that assigns actions to these plans. We propose a method for training the planner on a joint dataset composed of trajectories from all agents. This method offers the benefit of positive transfer by pooling data from different agents, while the primary challenge lies in adapting shared plans to each agent’s unique constraints. We evaluate our approach on the BabyAI environment, covering tasks of varying complexity, and demonstrate positive transfer across agents. Additionally, we examine the planner’s generalisation ability to unseen agents and compare our method to traditional imitation learning approaches. By training on a pooled dataset from multiple agents, our universal policy achieves an improvement of up to $42.20\%$ in task completion accuracy compared to a policy trained on a dataset from a single agent.

arxiv情報

著者 Niklas Höpner,David Kuric,Herke van Hoof
発行日 2025-02-20 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク