要約
マルチエージェント強化学習は、ロボットのパフォーマンスに応じて報酬や罰が与えられる一連のエピソードにわたってマルチロボット システムをトレーニングするための重要な方法です。
システムが適切な標準に合わせてトレーニングされて初めて、現実世界に展開されます。
システムが十分にトレーニングされていない場合、タスクが完了しない可能性が高く、周囲の環境にリスクをもたらす可能性があります。
したがって、より短いトレーニング期間で高いパフォーマンスを達成すると、時間とリソースの消費量が大幅に削減されます。
Language-based Inter-Robot Negotiation (MARLIN) によってガイドされたマルチエージェント強化学習を導入します。これにより、トレーニング プロセスがより高速になり、より透明性が高まります。
私たちはロボットに、タスクを交渉および議論する大規模な言語モデルを装備し、トレーニング中にポリシーを導くために使用される計画を作成します。
トレーニング全体を通じて、強化学習の使用とネゴシエーションベースのアプローチを動的に切り替えます。
これにより、標準的なマルチエージェント強化学習と比較してトレーニング速度が向上し、システムをより早く物理ハードウェアに導入できるようになります。
ロボットが自然言語で交渉するため、私たちはロボットの個別および集団としての行動をよりよく理解できるようになります。
マルチエージェント強化学習と大規模言語モデルへのアプローチのパフォーマンスを比較して、ハイブリッド手法がパフォーマンスをほとんど犠牲にせずに高速にトレーニングできることを示します。
要約(オリジナル)
Multi-agent reinforcement learning is a key method for training multi-robot systems over a series of episodes in which robots are rewarded or punished according to their performance; only once the system is trained to a suitable standard is it deployed in the real world. If the system is not trained enough, the task will likely not be completed and could pose a risk to the surrounding environment. Therefore, reaching high performance in a shorter training period can lead to significant reductions in time and resource consumption. We introduce Multi-Agent Reinforcement Learning guided by Language-based Inter-Robot Negotiation (MARLIN), which makes the training process both faster and more transparent. We equip robots with large language models that negotiate and debate the task, producing a plan that is used to guide the policy during training. We dynamically switch between using reinforcement learning and the negotiation-based approach throughout training. This offers an increase in training speed when compared to standard multi-agent reinforcement learning and allows the system to be deployed to physical hardware earlier. As robots negotiate in natural language, we can better understand the behaviour of the robots individually and as a collective. We compare the performance of our approach to multi-agent reinforcement learning and a large language model to show that our hybrid method trains faster at little cost to performance.
arxiv情報
著者 | Toby Godfrey,William Hunt,Mohammad D. Soorati |
発行日 | 2024-10-18 11:20:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google