要約
エージェント間の相互作用が複雑であるため、マルチエージェント制御ポリシーを学習するには、多くの場合、禁止された量のデータが必要になります。
この論文は、マルチエージェント システムが過去の記憶を効果的に利用して、データ効率の高い方法で新しい共同作業に適応できるようにすることを目的としています。
我々は、マルチエージェントコーディネーションスキルデータベースを提案します。これは、エージェント特有の主要なベクトルに関連付けられた調整された行動のコレクションを保存するためのリポジトリです。
当社の Transformer ベースのスキル エンコーダーは、調整に寄与する時空間インタラクションを効果的にキャプチャし、調整された動作ごとに独自のスキル表現を提供します。
データベースでは、ターゲット タスクの少数のデモンストレーションのみを利用することで、取得したデモンストレーションで強化されたデータセットを使用してポリシーをトレーニングすることができます。
実験による評価では、私たちの方法は、数ショット模倣学習などのベースライン方法と比較して、プッシュ操作タスクにおいて大幅に高い成功率を達成することが実証されています。
さらに、車輪付きロボットのチームを使用して、実際の環境で検索と学習のフレームワークの有効性を検証します。
要約(オリジナル)
Due to the complex interactions between agents, learning multi-agent control policy often requires a prohibited amount of data. This paper aims to enable multi-agent systems to effectively utilize past memories to adapt to novel collaborative tasks in a data-efficient fashion. We propose the Multi-Agent Coordination Skill Database, a repository for storing a collection of coordinated behaviors associated with key vectors distinctive to them. Our Transformer-based skill encoder effectively captures spatio-temporal interactions that contribute to coordination and provides a unique skill representation for each coordinated behavior. By leveraging only a small number of demonstrations of the target task, the database enables us to train the policy using a dataset augmented with the retrieved demonstrations. Experimental evaluations demonstrate that our method achieves a significantly higher success rate in push manipulation tasks compared with baseline methods like few-shot imitation learning. Furthermore, we validate the effectiveness of our retrieve-and-learn framework in a real environment using a team of wheeled robots.
arxiv情報
著者 | So Kuroki,Mai Nishimura,Tadashi Kozuno |
発行日 | 2024-03-29 18:10:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google