要約
自律的な車両の調整から空間内アセンブリに至るまでの最近の研究は、ロボットが共有目標を達成できるようにするための共同行動を学ぶことの重要性を示しています。
この協力的な行動を学ぶための一般的なアプローチは、集中訓練の分散化された解釈パラダイムを利用することです。
ただし、このアプローチでは、新しい課題も紹介されています。各エージェントの行動がチームの全体的な成功または失敗に貢献することを評価する方法です。
このクレジットの割り当ての問題は未開拓のままであり、マルチエージェントの強化学習文献で広く研究されています。
実際、エージェントの行動を手動で検査する人間は、既存の方法よりも優れた信用評価を生成することがよくあります。
この観察結果と、多くのパターン認識タスクで大きな言語モデルが人間レベルのパフォーマンスを示していることを示す最近の作品と組み合わせることができます。
私たちの重要なアイデアは、シーケンスの改善と帰属の2つのパターン認識問題へのクレジット割り当てを再定式化することです。これは、私たちの新しいLLM-MCAメソッドを動機付けています。
私たちのアプローチは、シナリオでの各エージェントの個別の貢献に基づいて環境報酬を数値的に分解する集中化されたLLM報酬criticを利用しています。
次に、このフィードバックに基づいてエージェントのポリシーネットワークを更新します。
また、LLM批評家がシナリオで各エージェントポリシーに直接中間目標を渡すことにより、LLM批評家が明示的なタスク割り当てを実行する拡張LLM-TACAを提案します。
どちらの方法でも、レベルベースの採餌、ロボット倉庫、衝突関連の安全性の制約を組み込んだ新しいSpaceworldベンチマークなど、さまざまなベンチマークで最先端のベンチマークをはるかに上回っています。
メソッドのアーティファクトとして、LLMの批評家からサンプリングされたように、エージェントごとの報酬情報が注釈された各タイムステップを使用して、大きな軌跡データセットを生成します。
要約(オリジナル)
Recent work, spanning from autonomous vehicle coordination to in-space assembly, has shown the importance of learning collaborative behavior for enabling robots to achieve shared goals. A common approach for learning this cooperative behavior is to utilize the centralized-training decentralized-execution paradigm. However, this approach also introduces a new challenge: how do we evaluate the contributions of each agent’s actions to the overall success or failure of the team. This credit assignment problem has remained open, and has been extensively studied in the Multi-Agent Reinforcement Learning literature. In fact, humans manually inspecting agent behavior often generate better credit evaluations than existing methods. We combine this observation with recent works which show Large Language Models demonstrate human-level performance at many pattern recognition tasks. Our key idea is to reformulate credit assignment to the two pattern recognition problems of sequence improvement and attribution, which motivates our novel LLM-MCA method. Our approach utilizes a centralized LLM reward-critic which numerically decomposes the environment reward based on the individualized contribution of each agent in the scenario. We then update the agents’ policy networks based on this feedback. We also propose an extension LLM-TACA where our LLM critic performs explicit task assignment by passing an intermediary goal directly to each agent policy in the scenario. Both our methods far outperform the state-of-the-art on a variety of benchmarks, including Level-Based Foraging, Robotic Warehouse, and our new Spaceworld benchmark which incorporates collision-related safety constraints. As an artifact of our methods, we generate large trajectory datasets with each timestep annotated with per-agent reward information, as sampled from our LLM critics.
arxiv情報
著者 | Kartik Nagpal,Dayi Dong,Jean-Baptiste Bouvier,Negar Mehr |
発行日 | 2025-02-24 05:56:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google