Solving Multi-Entity Robotic Problems Using Permutation Invariant Neural Networks

要約

現実世界のロボット アプリケーションにおける課題は、多くの場合、隣接するロボット、操作可能なオブジェクト、ナビゲーション目標など、動的に変化する複数のエンティティを管理することから発生します。
既存のマルチエージェント制御戦略はスケーラビリティの制限に直面しており、任意の数のエンティティを処理するのに苦労しています。
さらに、エージェント間でエンティティを割り当てるために、エンジニアリングされたヒューリスティックに依存することもよくあります。
私たちは、シミュレーションで訓練されたニューラル ネットワーク ポリシーを使用した分散制御システムを導入することで、これらの制限に対処するデータ駆動型のアプローチを提案します。
順列不変ニューラル ネットワーク アーキテクチャとモデルフリー強化学習を活用することで、私たちのアプローチにより、制御エージェントは順序によるバイアスや固定容量による制限を受けることなく、さまざまなエンティティの相対的な重要性を自律的に判断できるようになります。
私たちは、シミュレーションと複数の車輪付き四足歩行ロボットを使用した現実世界の実験の両方を通じてアプローチを検証し、それらの協調制御能力を実証します。
3 つの例示的なマルチエンティティ問題を用いた実験を通じて、アーキテクチャの選択の有効性を証明します。
私たちの分析は、複数オブジェクト操作や複数目標のナビゲーション問題におけるスケーラビリティの達成とタスクのパフォーマンスの向上において、エンドツーエンドでトレーニングされた順列不変エンコーダーの極めて重要な役割を強調しています。
私たちのポリシーの適応性は、ゼロショット方式でさまざまな数のエンティティを管理する能力によってさらに証明され、最適に近い自律的なタスク分散と衝突回避動作を示しています。

要約(オリジナル)

Challenges in real-world robotic applications often stem from managing multiple, dynamically varying entities such as neighboring robots, manipulable objects, and navigation goals. Existing multi-agent control strategies face scalability limitations, struggling to handle arbitrary numbers of entities. Additionally, they often rely on engineered heuristics for assigning entities among agents. We propose a data driven approach to address these limitations by introducing a decentralized control system using neural network policies trained in simulation. Leveraging permutation invariant neural network architectures and model-free reinforcement learning, our approach allows control agents to autonomously determine the relative importance of different entities without being biased by ordering or limited by a fixed capacity. We validate our approach through both simulations and real-world experiments involving multiple wheeled-legged quadrupedal robots, demonstrating their collaborative control capabilities. We prove the effectiveness of our architectural choice through experiments with three exemplary multi-entity problems. Our analysis underscores the pivotal role of the end-to-end trained permutation invariant encoders in achieving scalability and improving the task performance in multi-object manipulation or multi-goal navigation problems. The adaptability of our policy is further evidenced by its ability to manage varying numbers of entities in a zero-shot manner, showcasing near-optimal autonomous task distribution and collision avoidance behaviors.

arxiv情報

著者 Tianxu An,Joonho Lee,Marko Bjelonic,Flavio De Vincenti,Marco Hutter
発行日 2024-02-28 14:10:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク