要約
最近の進歩により、異種のマルチロボットチームが複雑で効果的な調整を学ぶことができました。
ただし、異質なチームをサポートする既存の建築設計は、表現力と効率性の間のトレードオフを強制する傾向があります。
各ロボットまたはロボットタイプに固有のIDを使用して入力を追加することにより、単一の共有アーキテクチャ内で多様な動作をエンコードしようとする試みがあります。
これらの設計により、サンプルとパラメーターの効率が向上しますが、行動の多様性を制限する傾向があります。
他の人は各ロボットに個別のポリシーを使用し、効率と一般化を犠牲にして多様性を高めることができます。
これら2つのデザインをスペクトルの終わりと見なし、多様な行動を効率的に学習できる中間地面のアプローチを探ります。
トランスファーラーニングとメタRLの作業、および特性ベースのタスク割り当ての以前の作業に触発された能力対象の共有ハイパーネットワーク(現金)を提案します。これは、ハイパーネットワークを使用して単一のアーキテクチャを使用して各ロボットと現在のコンテキストに動的に適応できる一般的なソフトウェイト共有アーキテクチャです。
直感的に、現金は、ローカルの観測とロボットの個々のおよび集合的能力(速度やペイロードなど)に基づいて、各ロボットに適合できる共有意思決定戦略をエンコードします。
現金は、集団行動に対する能力の影響を明示的に捉えており、目に見えないロボットまたはチームの構成にゼロショットの一般化を可能にします。
SOTAマルチロボットシミュレーション(JaxMarl)およびハードウェア(RoboTarium)プラットフォームを使用して、4つの不均一な調整タスクと3つの学習パラダイム(模倣学習、価値ベース、およびポリシー勾配RL)で実験を実施しました。
すべての条件にわたって、現金は適切に多様な行動を生み出し、トレーニング中のタスクパフォーマンスとサンプル効率のベースラインアーキテクチャを上回り、学習可能なパラメーターを60%〜80%少なく使用します。
要約(オリジナル)
Recent advances have enabled heterogeneous multi-robot teams to learn complex and effective coordination. However, existing architectural designs that support heterogeneous teams tend to force a trade-off between expressivity and efficiency. Some attempt to encode diverse behaviors within a single shared architecture by appending the input with an ID unique to each robot or robot type. These designs improve sample and parameter efficiency but tend to limit behavioral diversity. Others use a separate policy for each robot, enabling greater diversity at the cost of efficiency and generalization. We view these two designs as ends of a spectrum and explore a middle-ground approach that enables efficient learning of diverse behaviors. Inspired by work in transfer learning and meta RL, and building upon prior work in trait-based task allocation, we propose Capability-Aware Shared Hypernetworks (CASH), a general-purpose soft weight sharing architecture that uses hypernetworks to enable a single architecture to dynamically adapt to each robot and the current context. Intuitively, CASH encodes shared decision making strategies that can be adapted to each robot based on local observations and the robots’ individual and collective capabilities (e.g., speed and payload). CASH explicitly captures the impact of capabilities on collective behavior, enabling zero-shot generalization to unseen robots or team compositions. We conducted experiments across four heterogeneous coordination tasks and three learning paradigms (imitation learning, value-based, and policy-gradient RL) using SOTA multi-robot simulation (JaxMARL) and hardware (Robotarium) platforms. Across all conditions, CASH generates appropriately diverse behaviors and outperforms baseline architectures in task performance and sample efficiency during training and zero-shot generalization while utilizing 60%-80% fewer learnable parameters.
arxiv情報
著者 | Kevin Fu,Shalin Jain,Pierce Howell,Harish Ravichandar |
発行日 | 2025-03-05 15:37:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google