要約
ロボットエージェントが現実の中で人間を支援する機会が増えている中、四足歩行ロボットは、その機敏な動きにより、複雑なシナリオにおけるインタラクションのユニークな機会を提供する。しかし、自律的に移動し、適応し、多様な目標に対応できるエージェントを構築することは、依然として重要な課題である。本研究では、ペットに匹敵する機敏さで多様な命令に従うように設計されたQuadrupedGPTを紹介する。主な課題としては、i)情報に基づいた意思決定のためにマルチモーダルな観察を効果的に活用すること、ii)ロコモーションとナビゲーションを統合することで機敏な制御を実現すること、iii)長期的な目標を実行するために高度な認知を開発すること、などが挙げられる。私たちのQuadrupedGPTは、大規模なマルチモーダルモデルを使用して、人間のコマンドと環境コンテキストを解釈します。その広範な知識ベースを活用し、エージェントは適応的なロコモーション方針のためのパラメータを自律的に割り当て、目標に向かって安全かつ効率的な経路を考案する。さらに、長期的な目標を実行可能なサブゴールのシーケンスに分解するために高レベルの推論を用いる。包括的な実験を通して、我々のエージェントは多様なタスクと複雑な指示を処理する熟練度を示し、オープンエンドな環境のための多用途四脚エージェントの開発への重要な一歩となる。
要約(オリジナル)
As robotic agents increasingly assist humans in reality, quadruped robots offer unique opportunities for interaction in complex scenarios due to their agile movement. However, building agents that can autonomously navigate, adapt, and respond to versatile goals remains a significant challenge. In this work, we introduce QuadrupedGPT designed to follow diverse commands with agility comparable to that of a pet. The primary challenges addressed include: i) effectively utilizing multimodal observations for informed decision-making; ii) achieving agile control by integrating locomotion and navigation; iii) developing advanced cognition to execute long-term objectives. Our QuadrupedGPT interprets human commands and environmental contexts using a large multimodal model. Leveraging its extensive knowledge base, the agent autonomously assigns parameters for adaptive locomotion policies and devises safe yet efficient paths toward its goals. Additionally, it employs high-level reasoning to decompose long-term goals into a sequence of executable subgoals. Through comprehensive experiments, our agent shows proficiency in handling diverse tasks and intricate instructions, representing a significant step toward the development of versatile quadruped agents for open-ended environments.
arxiv情報
著者 | Yuting Mei,Ye Wang,Sipeng Zheng,Qin Jin |
発行日 | 2024-12-03 03:49:24+00:00 |
arxivサイト | arxiv_id(pdf) |