要約
3D シーンの機能を理解するには、自然言語の説明を解釈して、ハンドルやボタンなどの機能的な対話型オブジェクトを 3D 環境で見つける必要があります。
機能の理解は、言語を解釈するための世界知識と、きめ細かいオブジェクトを識別するための空間認識の両方が必要なため、非常に困難です。
たとえば、「天井の照明をつける」などのタスクが与えられた場合、身体化された AI エージェントは、タスクの説明にスイッチが明示的に記載されていない場合でも、照明のスイッチを見つける必要があると推測する必要があります。
現在まで、この問題に対する専用の方法は開発されていません。
このペーパーでは、3D シーンの機能を理解するために設計された最初のアプローチである Fun3DU を紹介します。
Fun3DU は、対象オブジェクトを識別するために、言語モデルを使用して思考連鎖推論を通じてタスクの説明を解析します。
識別されたオブジェクトは、視覚および言語モデルを使用して、キャプチャされたシーンの複数のビューにわたってセグメント化されます。
各ビューからのセグメンテーション結果は 3D でリフトされ、幾何学的情報を使用して点群に集約されます。
Fun3DU はトレーニング不要で、事前トレーニングされたモデルに完全に依存しています。
私たちは、このタスクをベンチマークするための最新かつ唯一のデータセットである SceneFun3D で Fun3DU を評価します。このデータセットは、230 のシーンに関する 3000 以上のタスクの説明で構成されています。
私たちの方法は、最先端のオープンボキャブラリー 3D セグメンテーション アプローチを大幅に上回ります。
プロジェクトページ: https://jcorsetti.github.io/fun3du
要約(オリジナル)
Understanding functionalities in 3D scenes involves interpreting natural language descriptions to locate functional interactive objects, such as handles and buttons, in a 3D environment. Functionality understanding is highly challenging, as it requires both world knowledge to interpret language and spatial perception to identify fine-grained objects. For example, given a task like ‘turn on the ceiling light’, an embodied AI agent must infer that it needs to locate the light switch, even though the switch is not explicitly mentioned in the task description. To date, no dedicated methods have been developed for this problem. In this paper, we introduce Fun3DU, the first approach designed for functionality understanding in 3D scenes. Fun3DU uses a language model to parse the task description through Chain-of-Thought reasoning in order to identify the object of interest. The identified object is segmented across multiple views of the captured scene by using a vision and language model. The segmentation results from each view are lifted in 3D and aggregated into the point cloud using geometric information. Fun3DU is training-free, relying entirely on pre-trained models. We evaluate Fun3DU on SceneFun3D, the most recent and only dataset to benchmark this task, which comprises over 3000 task descriptions on 230 scenes. Our method significantly outperforms state-of-the-art open-vocabulary 3D segmentation approaches. Project page: https://jcorsetti.github.io/fun3du
arxiv情報
著者 | Jaime Corsetti,Francesco Giuliari,Alice Fasoli,Davide Boscaini,Fabio Poiesi |
発行日 | 2024-11-26 16:45:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google