Exploring 3D Activity Reasoning and Planning: From Implicit Human Intentions to Route-Aware Planning

要約

3Dアクティビティの推論と計画は、マルチモーダル学習の最近の進歩のおかげで、人間とロボットの相互作用の注目を集め、AIを具体化しました。
ただし、ほとんどの既存の作業は、2つの制約を共有しています。1)暗黙のユーザー意図に関する推論がほとんどない明示的な指示に大きく依存しています。
2)ロボットの動きでのステップ間ルート計画の過失。
ギャップを埋めるために、3Dアクティビティの推論と計画を提案します。これは、暗黙の指示から意図したアクティビティが段階的なルートで段階に分解され、シーンセグメンテーションからの微細に分解された3Dオブジェクト形状と場所のガイダンスの下でそれらを分解し、計画を分解する新しい3Dタスクです。
2つの観点から新しい3Dタスクに取り組みます。
まず、ReasonPlan3Dを構築します。これは、多様な3Dシーンをカバーする大規模なベンチマークで、豊富な暗黙の指示とマルチステップタスク計画、ステップ間ルート計画、および微細なセグメンテーションのための詳細な注釈を備えています。
第二に、複数のステップでコンテキストの一貫性を備えたプログレッシブプランの生成を導入する新しいフレームワークと、重要なオブジェクトとその空間関係をキャプチャするために動的に更新されるシーングラフを設計します。
広範な実験は、暗黙の人間の指示からの推論活動、正確な段階的なタスク計画の作成、およびマルチステップの動きのルート計画をシームレスに統合するための推論活動におけるベンチマークとフレームワークの有効性を示しています。
データセットとコードがリリースされます。

要約(オリジナル)

3D activity reasoning and planning has attracted increasing attention in human-robot interaction and embodied AI thanks to the recent advance in multimodal learning. However, most existing works share two constraints: 1) heavy reliance on explicit instructions with little reasoning on implicit user intention; 2) negligence of inter-step route planning on robot moves. To bridge the gaps, we propose 3D activity reasoning and planning, a novel 3D task that reasons the intended activities from implicit instructions and decomposes them into steps with inter-step routes and planning under the guidance of fine-grained 3D object shapes and locations from scene segmentation. We tackle the new 3D task from two perspectives. First, we construct ReasonPlan3D, a large-scale benchmark that covers diverse 3D scenes with rich implicit instructions and detailed annotations for multi-step task planning, inter-step route planning, and fine-grained segmentation. Second, we design a novel framework that introduces progressive plan generation with contextual consistency across multiple steps, as well as a scene graph that is updated dynamically for capturing critical objects and their spatial relations. Extensive experiments demonstrate the effectiveness of our benchmark and framework in reasoning activities from implicit human instructions, producing accurate stepwise task plans, and seamlessly integrating route planning for multi-step moves. The dataset and code will be released.

arxiv情報

著者 Xueying Jiang,Wenhao Li,Xiaoqin Zhang,Ling Shao,Shijian Lu
発行日 2025-03-17 09:33:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク