Agent as Cerebrum, Controller as Cerebellum: Implementing an Embodied LMM-based Agent on Drones

要約

この研究では、「大脳としてのエージェント、小脳としてのコントローラー」アーキテクチャをカプセル化した、産業用ロボットに具現化されたエージェントのための新しいパラダイムを提案します。
私たちのアプローチは、産業環境におけるドローン技術に合わせて調整された、AeroAgent として知られるエージェント フレームワーク内で大規模マルチモーダル モデル (LMM) の力を利用します。
ロボット システムとのシームレスな統合を促進するために、LMM ベースのエージェントをロボット オペレーティング システム (ROS) に接続する特注のリンケージ フレームワークである ROSchain を導入します。
私たちは、エアジェンでの模擬実験や、特に個別の捜索救助活動における実際のケーススタディなど、広範な実証研究から得た結果を報告します。
この結果は、既存の深層強化学習 (DRL) ベースのエージェントと比較して AeroAgent の優れたパフォーマンスを実証し、複雑な現実世界のシナリオにおける組み込み型 LMM の利点を強調しています。

要約(オリジナル)

In this study, we present a novel paradigm for industrial robotic embodied agents, encapsulating an ‘agent as cerebrum, controller as cerebellum’ architecture. Our approach harnesses the power of Large Multimodal Models (LMMs) within an agent framework known as AeroAgent, tailored for drone technology in industrial settings. To facilitate seamless integration with robotic systems, we introduce ROSchain, a bespoke linkage framework connecting LMM-based agents to the Robot Operating System (ROS). We report findings from extensive empirical research, including simulated experiments on the Airgen and real-world case study, particularly in individual search and rescue operations. The results demonstrate AeroAgent’s superior performance in comparison to existing Deep Reinforcement Learning (DRL)-based agents, highlighting the advantages of the embodied LMM in complex, real-world scenarios.

arxiv情報

著者 Haoran Zhao,Fengxing Pan,Huqiuyue Ping,Yaoming Zhou
発行日 2023-11-25 14:14:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク