LaTeRF: Label and Text Driven Object Radiance Fields

要約

3Dオブジェクト表現の取得は、フォトリアリスティックシミュレータの作成やAR/VRアプリケーションのアセット収集のために重要である。ニューラルフィールドは2D画像からシーンの連続的なボリューム表現を学習するのに有効であることが示されているが、弱い監視下でこれらのモデルからオブジェクト表現を獲得することは未解決の課題として残されている。本論文では、シーン全体の2次元画像と既知のカメラポーズ、オブジェクトの自然言語記述、および入力画像内のオブジェクトと非オブジェクト点の少数のポイントラベルが与えられたシーンから関心のあるオブジェクトを抽出する手法であるLaTeRFを紹介します。シーンから物体を忠実に抽出するために、LaTeRFはNeRFの定式化を拡張し、各3次元点における「物体らしさ」確率を追加する。さらに、事前に学習したCLIPモデルの豊富な潜在空間と我々の微分可能なオブジェクトレンダラーを組み合わせて、オブジェクトの隠蔽部分を塗りつぶすように利用する。我々は、合成データと実データの両方において、忠実な物体抽出を実証し、広範囲なアブレーション研究を通じて、我々の設計選択を正当化する。

要約(オリジナル)

Obtaining 3D object representations is important for creating photo-realistic simulators and collecting assets for AR/VR applications. Neural fields have shown their effectiveness in learning a continuous volumetric representation of a scene from 2D images, but acquiring object representations from these models with weak supervision remains an open challenge. In this paper we introduce LaTeRF, a method for extracting an object of interest from a scene given 2D images of the entire scene and known camera poses, a natural language description of the object, and a small number of point-labels of object and non-object points in the input images. To faithfully extract the object from the scene, LaTeRF extends the NeRF formulation with an additional `objectness’ probability at each 3D point. Additionally, we leverage the rich latent space of a pre-trained CLIP model combined with our differentiable object renderer, to inpaint the occluded parts of the object. We demonstrate high-fidelity object extraction on both synthetic and real datasets and justify our design choices through an extensive ablation study.

arxiv情報

著者 Ashkan Mirzaei,Yash Kant,Jonathan Kelly,Igor Gilitschenski
発行日 2022-07-04 17:07:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク