Agent as Cerebrum, Controller as Cerebellum: Implementing an Embodied LMM-based Agent on Drones


私たちのアプローチは、産業環境におけるドローン技術に合わせて調整された、AeroAgent として知られるエージェント フレームワーク内で大規模マルチモーダル モデル (LMM) の力を利用します。
ロボット システムとのシームレスな統合を促進するために、LMM ベースのエージェントをロボット オペレーティング システム (ROS) に接続する特注のリンケージ フレームワークである ROSchain を導入します。
この結果は、既存の深層強化学習 (DRL) ベースのエージェントと比較して AeroAgent の優れたパフォーマンスを実証し、複雑な現実世界のシナリオにおける組み込み型 LMM の利点を強調しています。


In this study, we present a novel paradigm for industrial robotic embodied agents, encapsulating an ‘agent as cerebrum, controller as cerebellum’ architecture. Our approach harnesses the power of Large Multimodal Models (LMMs) within an agent framework known as AeroAgent, tailored for drone technology in industrial settings. To facilitate seamless integration with robotic systems, we introduce ROSchain, a bespoke linkage framework connecting LMM-based agents to the Robot Operating System (ROS). We report findings from extensive empirical research, including simulated experiments on the Airgen and real-world case study, particularly in individual search and rescue operations. The results demonstrate AeroAgent’s superior performance in comparison to existing Deep Reinforcement Learning (DRL)-based agents, highlighting the advantages of the embodied LMM in complex, real-world scenarios.


著者 Haoran Zhao,Fengxing Pan,Huqiuyue Ping,Yaoming Zhou
発行日 2023-11-25 14:14:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.RO パーマリンク