ASHiTA: Automatic Scene-grounded HIerarchical Task Analysis

要約

シーンの再構築と理解の最近の作業は、物理的な3D環境に自然言語を接地することで進歩しましたが、3Dシーンへの抽象的な高レベルの指示を接地することは依然として困難です。
高レベルの命令は、シーン内のセマンティック要素を明示的に呼び出さない場合があり、高レベルのタスクをより具体的なサブタスクのセットに分割するプロセスでさえ、階層タスク分析と呼ばれるプロセスが環境に依存します。
この作業では、高レベルのタスクを接地されたサブタスクに分解することにより、3Dシーングラフに接地されたタスク階層を生成する最初のフレームワークであるAshitaを提案します。
ASHITAは、LLM支援の階層タスク分析を交互にして、タスク駆動型の3Dシーングラフ構造を使用して、環境の適切な表現を生成します。
私たちの実験は、AshitaがLLMベースラインよりも高レベルのタスクを環境依存のサブタスクに分解する際に大幅に優れていることを示しており、さらに最先端の方法に匹敵する接地性能を達成できることが示されています。

要約(オリジナル)

While recent work in scene reconstruction and understanding has made strides in grounding natural language to physical 3D environments, it is still challenging to ground abstract, high-level instructions to a 3D scene. High-level instructions might not explicitly invoke semantic elements in the scene, and even the process of breaking a high-level task into a set of more concrete subtasks, a process called hierarchical task analysis, is environment-dependent. In this work, we propose ASHiTA, the first framework that generates a task hierarchy grounded to a 3D scene graph by breaking down high-level tasks into grounded subtasks. ASHiTA alternates LLM-assisted hierarchical task analysis, to generate the task breakdown, with task-driven 3D scene graph construction to generate a suitable representation of the environment. Our experiments show that ASHiTA performs significantly better than LLM baselines in breaking down high-level tasks into environment-dependent subtasks and is additionally able to achieve grounding performance comparable to state-of-the-art methods.

arxiv情報

著者 Yun Chang,Leonor Fermoselle,Duy Ta,Bernadette Bucher,Luca Carlone,Jiuguang Wang
発行日 2025-04-11 12:57:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク