要約
3D シーンのオープンボキャブラリーセグメンテーションは人間の知覚の基本的な機能であり、したがってコンピュータービジョン研究における重要な目的です。
ただし、このタスクは、堅牢で一般化可能なモデルをトレーニングするための大規模で多様な 3D オープン語彙セグメンテーション データセットの欠如によって大きく妨げられています。
事前トレーニングされた 2D オープン語彙セグメンテーション モデルから知識を抽出することは役に立ちますが、2D モデルはほとんどが近い語彙データセットで微調整されているため、オープン語彙機能が損なわれます。
私たちは、弱く監視された方法で事前トレーニングされた基礎モデル CLIP と DINO を活用することで、3D オープン語彙セグメンテーションの課題に取り組みます。
具体的には、シーン内のオブジェクトのオープンボキャブラリーのテキスト説明のみが与えられた場合、CLIP と DINO のオープンボキャブラリーのマルチモーダルな知識とオブジェクト推論機能を抽出して、2D 特徴を効果的に表示するニューラル放射フィールド (NeRF) にします。
一貫した 3D セグメンテーション。
私たちのアプローチの注目すべき点は、基礎モデルまたは蒸留プロセスのいずれにも手動のセグメンテーション アノテーションを必要としないことです。
広範な実験により、私たちの方法は特定のシーンでセグメンテーションアノテーションを使用してトレーニングされた完全教師モデルよりも優れたパフォーマンスを発揮することが示されており、3Dのオープンボキャブラリーセグメンテーションが2D画像およびテキストと画像のペアから効果的に学習できることが示唆されています。
コードは \url{https://github.com/Kunhao-Liu/3D-OVS} で入手できます。
要約(オリジナル)
Open-vocabulary segmentation of 3D scenes is a fundamental function of human perception and thus a crucial objective in computer vision research. However, this task is heavily impeded by the lack of large-scale and diverse 3D open-vocabulary segmentation datasets for training robust and generalizable models. Distilling knowledge from pre-trained 2D open-vocabulary segmentation models helps but it compromises the open-vocabulary feature as the 2D models are mostly finetuned with close-vocabulary datasets. We tackle the challenges in 3D open-vocabulary segmentation by exploiting pre-trained foundation models CLIP and DINO in a weakly supervised manner. Specifically, given only the open-vocabulary text descriptions of the objects in a scene, we distill the open-vocabulary multimodal knowledge and object reasoning capability of CLIP and DINO into a neural radiance field (NeRF), which effectively lifts 2D features into view-consistent 3D segmentation. A notable aspect of our approach is that it does not require any manual segmentation annotations for either the foundation models or the distillation process. Extensive experiments show that our method even outperforms fully supervised models trained with segmentation annotations in certain scenes, suggesting that 3D open-vocabulary segmentation can be effectively learned from 2D images and text-image pairs. Code is available at \url{https://github.com/Kunhao-Liu/3D-OVS}.
arxiv情報
| 著者 | Kunhao Liu,Fangneng Zhan,Jiahui Zhang,Muyu Xu,Yingchen Yu,Abdulmotaleb El Saddik,Christian Theobalt,Eric Xing,Shijian Lu | 
| 発行日 | 2024-01-09 17:09:47+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
