A Talent-infused Policy-gradient Approach to Efficient Co-Design of Morphology and Task Allocation Behavior of Multi-Robot Systems

要約

マルチロボットまたは群れシステムで観察される興味深い効率的な集団行動は、ロボットの個々の行動から生まれます。
個々のロボットの動作の機能空間は、ロボットの形態や物理的設計によって形成または制約されます。
したがって、形態と行動の選択を別々に、または順番に扱う(古典的なアプローチ)のではなく、集合的なパフォーマンスに関する環境のフィードバックによって情報を得て、個々のロボットの形態と行動を同時に最適化することによって、マルチロボット システムの潜在能力を最大限に実現できます。

この論文では、この可能性を探求し、特に個々の動作がグラフ強化学習によって設計される洪水対応シナリオに焦点を当てた MRTA 問題において、形態の選択が集団の動作にどのような影響を与えるかを理解するための効率的な同時設計または共同設計方法を紹介します。
この場合の計算効率は、共同設計問題を一連のより単純な最適化お​​よび学習問題にほぼ正確に分解する新しい方法に起因すると考えられます。
これは、i) 形態に依存するロボットの能力を表す Talent メトリクスのパレート フロントの特定と使用、ii) MRTA のパフォーマンスを共同で最大化する Talent の最良のトレードオフと個々のロボット ポリシーの選択を学習することによって達成されます。
複数の無人航空機の洪水対応のユースケースに適用すると、共同設計の結果は連続した設計ベースラインを容易に上回ることが示されています。
同様の操作について、共同設計された単一ロボット システムと共同設計された複数ロボット システムを比較すると、形態や学習された動作に大きな違いが見られます。

要約(オリジナル)

Interesting and efficient collective behavior observed in multi-robot or swarm systems emerges from the individual behavior of the robots. The functional space of individual robot behaviors is in turn shaped or constrained by the robot’s morphology or physical design. Thus the full potential of multi-robot systems can be realized by concurrently optimizing the morphology and behavior of individual robots, informed by the environment’s feedback about their collective performance, as opposed to treating morphology and behavior choices disparately or in sequence (the classical approach). This paper presents an efficient concurrent design or co-design method to explore this potential and understand how morphology choices impact collective behavior, particularly in an MRTA problem focused on a flood response scenario, where the individual behavior is designed via graph reinforcement learning. Computational efficiency in this case is attributed to a new way of near exact decomposition of the co-design problem into a series of simpler optimization and learning problems. This is achieved through i) the identification and use of the Pareto front of Talent metrics that represent morphology-dependent robot capabilities, and ii) learning the selection of Talent best trade-offs and individual robot policy that jointly maximizes the MRTA performance. Applied to a multi-unmanned aerial vehicle flood response use case, the co-design outcomes are shown to readily outperform sequential design baselines. Significant differences in morphology and learned behavior are also observed when comparing co-designed single robot vs. co-designed multi-robot systems for similar operations.

arxiv情報

著者 Prajit KrisshnaKumar,Steve Paul,Souma Chowdhury
発行日 2024-11-27 17:10:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO パーマリンク