OpenObj: Open-Vocabulary Object-Level Neural Radiance Fields with Fine-Grained Understanding


近年、オープンセット検索における優れた機能を示す視覚言語モデル (VLM) によって促進されるオープン語彙 3D シーン再構築への関心が高まっています。
これらの課題に対処するために、オープン語彙のオブジェクトレベルのニューラル放射フィールド (NeRF) を詳細に理解して構築する革新的なアプローチである OpenObj を紹介します。
基本的に、OpenObj は、効率的かつ完全なシーンのモデリングとオブジェクト レベルでの理解のための堅牢なフレームワークを確立します。
このアプローチでは、詳細な理解を維持しながら、オブジェクト レベルのインスタンスをキャプチャします。
複数のデータセットの結果は、OpenObj がゼロショット セマンティック セグメンテーションおよび検索タスクで優れたパフォーマンスを達成していることを示しています。
さらに、OpenObj は、グローバルな動きやローカルな操作など、複数のスケールで現実世界のロボット工学タスクをサポートします。


In recent years, there has been a surge of interest in open-vocabulary 3D scene reconstruction facilitated by visual language models (VLMs), which showcase remarkable capabilities in open-set retrieval. However, existing methods face some limitations: they either focus on learning point-wise features, resulting in blurry semantic understanding, or solely tackle object-level reconstruction, thereby overlooking the intricate details of the object’s interior. To address these challenges, we introduce OpenObj, an innovative approach to build open-vocabulary object-level Neural Radiance Fields (NeRF) with fine-grained understanding. In essence, OpenObj establishes a robust framework for efficient and watertight scene modeling and comprehension at the object-level. Moreover, we incorporate part-level features into the neural fields, enabling a nuanced representation of object interiors. This approach captures object-level instances while maintaining a fine-grained understanding. The results on multiple datasets demonstrate that OpenObj achieves superior performance in zero-shot semantic segmentation and retrieval tasks. Additionally, OpenObj supports real-world robotics tasks at multiple scales, including global movement and local manipulation.


著者 Yinan Deng,Jiahui Wang,Jingyu Zhao,Jianyu Dou,Yi Yang,Yufeng Yue
発行日 2024-06-12 08:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク