QuadrupedGPT: Towards a Versatile Quadruped Agent in Open-ended Worlds

要約

ペットは仲間を提供しますが、知能が限られているため、高度な推論や人間との自律的な相互作用が制限されます。
これを考慮して、ペットに匹敵する機敏性で広範囲の複雑なタスクを習得するように設計された多用途エージェントである QuadrupedGPT を提案します。
この目標を達成するには、主な課題として次のものが挙げられます。 i) 意思決定にマルチモーダルな観察を効果的に活用する。
ii) 移動の機敏な制御と経路計画を習得する。
iii) 長期的な目標を実行するための高度な認知能力を開発する。
QuadrupedGPT は、大規模なマルチモーダル モデル (LMM) を使用して人間のコマンドと環境コンテキストを処理します。
広範な知識ベースを活用した当社のエージェントは、適応型移動ポリシーに適切なパラメータを自律的に割り当て、セマンティックを意識した地形分析を利用して、目標に向かう安全かつ効率的な経路を計画するエージェントをガイドします。
さらに、QuadrupedGPT には、高レベルの推論を通じて長期目標を一連の実行可能なサブ目標に分解できる問題解決機能が備わっています。
さまざまなベンチマークにわたる広範な実験により、QuadrupedGPT が複雑な命令を伴う複数のタスクを適切に処理できることが確認され、オープンエンドの世界で多用途の四足エージェントに向けた重要な一歩を示しています。
当社の Web サイトとコードは、https://quadruped-hub.github.io/Quadruped-GPT/ でご覧いただけます。

要約(オリジナル)

While pets offer companionship, their limited intelligence restricts advanced reasoning and autonomous interaction with humans. Considering this, we propose QuadrupedGPT, a versatile agent designed to master a broad range of complex tasks with agility comparable to that of a pet. To achieve this goal, the primary challenges include: i) effectively leveraging multimodal observations for decision-making; ii) mastering agile control of locomotion and path planning; iii) developing advanced cognition to execute long-term objectives. QuadrupedGPT processes human command and environmental contexts using a large multimodal model (LMM). Empowered by its extensive knowledge base, our agent autonomously assigns appropriate parameters for adaptive locomotion policies and guides the agent in planning a safe but efficient path towards the goal, utilizing semantic-aware terrain analysis. Moreover, QuadrupedGPT is equipped with problem-solving capabilities that enable it to decompose long-term goals into a sequence of executable subgoals through high-level reasoning. Extensive experiments across various benchmarks confirm that QuadrupedGPT can adeptly handle multiple tasks with intricate instructions, demonstrating a significant step towards the versatile quadruped agents in open-ended worlds. Our website and codes can be found at https://quadruped-hub.github.io/Quadruped-GPT/.

arxiv情報

著者 Ye Wang,Yuting Mei,Sipeng Zheng,Qin Jin
発行日 2024-06-24 12:14:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク