要約
私たちは、既製の 2D ビジュアル生成モデルを使用した生成 3D 修復によって 3D キャプチャの欠落部分を補完するアプローチである NeRFiller を提案します。
多くの場合、キャプチャされた 3D シーンまたはオブジェクトの一部は、メッシュ再構成の失敗または観察の欠如により欠落します (オブジェクトの底部などの接触領域や到達しにくい領域など)。
私たちは、2D 修復拡散モデルを活用して、この困難な 3D 修復問題に取り組みます。
私たちは、画像が 2$\times$2 グリッドを形成するときに、より多くの 3D 一貫性のある修復を生成するという、これらのモデルの驚くべき動作を特定し、この動作を 4 つ以上の画像に一般化する方法を示します。
次に、これらのペイントされた領域を単一の一貫した 3D シーンに蒸留するための反復フレームワークを提示します。
関連する作品とは対照的に、私たちは前景オブジェクトを削除するのではなくシーンを完成させることに焦点を当てており、私たちのアプローチは厳密な 2D オブジェクト マスクやテキストを必要としません。
私たちのアプローチを、さまざまなシーンの設定に適合させた関連ベースラインと比較します。そこでは、NeRFiller が最も一貫性のある 3D でもっともらしいシーン完成を作成します。
私たちのプロジェクト ページは https://ethanweber.me/nerfiller にあります。
要約(オリジナル)
We propose NeRFiller, an approach that completes missing portions of a 3D capture via generative 3D inpainting using off-the-shelf 2D visual generative models. Often parts of a captured 3D scene or object are missing due to mesh reconstruction failures or a lack of observations (e.g., contact regions, such as the bottom of objects, or hard-to-reach areas). We approach this challenging 3D inpainting problem by leveraging a 2D inpainting diffusion model. We identify a surprising behavior of these models, where they generate more 3D consistent inpaints when images form a 2$\times$2 grid, and show how to generalize this behavior to more than four images. We then present an iterative framework to distill these inpainted regions into a single consistent 3D scene. In contrast to related works, we focus on completing scenes rather than deleting foreground objects, and our approach does not require tight 2D object masks or text. We compare our approach to relevant baselines adapted to our setting on a variety of scenes, where NeRFiller creates the most 3D consistent and plausible scene completions. Our project page is at https://ethanweber.me/nerfiller.
arxiv情報
著者 | Ethan Weber,Aleksander Hołyński,Varun Jampani,Saurabh Saxena,Noah Snavely,Abhishek Kar,Angjoo Kanazawa |
発行日 | 2023-12-07 18:59:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google