MARLIN: Multi-Agent Reinforcement Learning Guided by Language-Based Inter-Robot Negotiation

要約

マルチエージェント強化学習は、ロボットがパフォーマンスに応じて報われるか罰せられる一連のエピソードでマルチロボットシステムをトレーニングするための重要な方法です。
システムが適切な基準に合わせてトレーニングされた後にのみ、現実の世界に展開されます。
システムが十分にトレーニングされていない場合、タスクは完了しない可能性が高く、周囲の環境にリスクをもたらす可能性があります。
言語ベースのロボット間交渉(Marlin)に導かれるマルチエージェントの強化学習を紹介します。これにより、トレーニングプロセスでは、ピークパフォーマンスに達するためにトレーニングエピソードが少なくなります。
ロボットには、タスクを交渉して議論する大規模な言語モデルが装備されており、トレーニング中にポリシーを導くために使用される計画を作成します。
このアプローチは、補強学習とトレーニング全体の大規模な言語モデルベースのアクションネゴシエーションを使用することを動的に切り替えます。
これにより、標準のマルチエージェント強化学習と比較して、必要なトレーニングエピソードの数が減少するため、システムをより早く物理的なハードウェアに展開できます。
このアプローチのパフォーマンスは、マルチエージェントの強化学習に対して評価され、私たちのハイブリッド方法がトレーニング時間を大幅に短縮し、同等の結果を達成することを示しています。

要約(オリジナル)

Multi-agent reinforcement learning is a key method for training multi-robot systems over a series of episodes in which robots are rewarded or punished according to their performance; only once the system is trained to a suitable standard is it deployed in the real world. If the system is not trained enough, the task will likely not be completed and could pose a risk to the surrounding environment. We introduce Multi-Agent Reinforcement Learning guided by Language-based Inter-Robot Negotiation (MARLIN), in which the training process requires fewer training episodes to reach peak performance. Robots are equipped with large language models that negotiate and debate a task, producing plans used to guide the policy during training. The approach dynamically switches between using reinforcement learning and large language model-based action negotiation throughout training. This reduces the number of training episodes required, compared to standard multi-agent reinforcement learning, and hence allows the system to be deployed to physical hardware earlier. The performance of this approach is evaluated against multi-agent reinforcement learning, showing that our hybrid method achieves comparable results with significantly reduced training time.

arxiv情報

著者 Toby Godfrey,William Hunt,Mohammad D. Soorati
発行日 2025-03-04 08:39:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク