要約
近年、オープンセット検索における優れた機能を示す視覚言語モデル (VLM) によって促進されるオープン語彙 3D シーン再構築への関心が高まっています。
しかし、既存の方法はいくつかの制限に直面しています。点ごとの特徴の学習に焦点を当てて意味論的な理解が曖昧になるか、オブジェクトレベルの再構成のみに取り組むため、オブジェクトの内部の複雑な詳細が見落とされます。
これらの課題に対処するために、オープン語彙のオブジェクトレベルのニューラル放射フィールド (NeRF) を詳細に理解して構築する革新的なアプローチである OpenObj を紹介します。
基本的に、OpenObj は、効率的かつ完全なシーンのモデリングとオブジェクト レベルでの理解のための堅牢なフレームワークを確立します。
さらに、パーツレベルの機能をニューラルフィールドに組み込み、オブジェクト内部の微妙な表現を可能にします。
このアプローチでは、詳細な理解を維持しながら、オブジェクト レベルのインスタンスをキャプチャします。
複数のデータセットの結果は、OpenObj がゼロショット セマンティック セグメンテーションおよび検索タスクで優れたパフォーマンスを達成していることを示しています。
さらに、OpenObj は、グローバルな動きやローカルな操作など、複数のスケールで現実世界のロボット工学タスクをサポートします。
要約(オリジナル)
In recent years, there has been a surge of interest in open-vocabulary 3D scene reconstruction facilitated by visual language models (VLMs), which showcase remarkable capabilities in open-set retrieval. However, existing methods face some limitations: they either focus on learning point-wise features, resulting in blurry semantic understanding, or solely tackle object-level reconstruction, thereby overlooking the intricate details of the object’s interior. To address these challenges, we introduce OpenObj, an innovative approach to build open-vocabulary object-level Neural Radiance Fields (NeRF) with fine-grained understanding. In essence, OpenObj establishes a robust framework for efficient and watertight scene modeling and comprehension at the object-level. Moreover, we incorporate part-level features into the neural fields, enabling a nuanced representation of object interiors. This approach captures object-level instances while maintaining a fine-grained understanding. The results on multiple datasets demonstrate that OpenObj achieves superior performance in zero-shot semantic segmentation and retrieval tasks. Additionally, OpenObj supports real-world robotics tasks at multiple scales, including global movement and local manipulation.
arxiv情報
著者 | Yinan Deng,Jiahui Wang,Jingyu Zhao,Jianyu Dou,Yi Yang,Yufeng Yue |
発行日 | 2024-06-12 08:59:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google