CoNav: A Benchmark for Human-Centered Collaborative Navigation

要約

人間とロボットのコラボレーションは、ロボットが人間の今後のタスクをインテリジェントに支援するという魅力的な目標です。
この目標を達成するには、エージェントは基本的な協調ナビゲーション能力を備えている必要があります。つまり、エージェントは人間の活動を観察することで人間の意図を推論し、人間よりも先に人間の意図する目的地にナビゲートする必要があります。
しかし、この重要な能力はこれまでの文献では十分に研究されていませんでした。
このギャップを埋めるために、私たちは協調ナビゲーション (CoNav) ベンチマークを提案します。
当社の CoNav は、現実的で多様な人間の活動を伴う 3D ナビゲーション環境を構築するという重要な課題に取り組んでいます。
これを達成するために、テキストの説明と環境コンテキストの両方を条件とする、新しい LLM ベースの人型アニメーション生成フレームワークを設計します。
生成された人型の軌道は環境コンテキストに従い、一般的なシミュレーターに簡単に統合できます。
既存のナビゲーション方法は人間の意図の認識を無視しているため、CoNav タスクでは困難であることが経験的にわかっています。
この問題を解決するために、人間の長期的および短期的な意図を推論するための意図認識エージェントを提案します。
エージェントは、予測された意図とパノラマ観察に基づいてナビゲーション アクションを予測します。
人間の観察、人間の衝突の回避、ナビゲーションなどの緊急エージェントの動作は、提案されたデータセットとエージェントの効率を明らかにします。

要約(オリジナル)

Human-robot collaboration, in which the robot intelligently assists the human with the upcoming task, is an appealing objective. To achieve this goal, the agent needs to be equipped with a fundamental collaborative navigation ability, where the agent should reason human intention by observing human activities and then navigate to the human’s intended destination in advance of the human. However, this vital ability has not been well studied in previous literature. To fill this gap, we propose a collaborative navigation (CoNav) benchmark. Our CoNav tackles the critical challenge of constructing a 3D navigation environment with realistic and diverse human activities. To achieve this, we design a novel LLM-based humanoid animation generation framework, which is conditioned on both text descriptions and environmental context. The generated humanoid trajectory obeys the environmental context and can be easily integrated into popular simulators. We empirically find that the existing navigation methods struggle in CoNav task since they neglect the perception of human intention. To solve this problem, we propose an intention-aware agent for reasoning both long-term and short-term human intention. The agent predicts navigation action based on the predicted intention and panoramic observation. The emergent agent behavior including observing humans, avoiding human collision, and navigation reveals the efficiency of the proposed datasets and agents.

arxiv情報

著者 Changhao Li,Xinyu Sun,Peihao Chen,Jugang Fan,Zixu Wang,Yanxia Liu,Jinhui Zhu,Chuang Gan,Mingkui Tan
発行日 2024-06-04 15:44:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク