要約
雨、雪、霧などの破損がある場合、1 つの画像から 3D シーンをどのように推測するのでしょうか?
単純なドメインのランダム化は、事前に破損の種類を把握していることに依存します。
ここでは、堅牢な逆グラフィックス (RIG) と呼ばれるベイジアン アプローチを提案します。これは、強力なシーン プリアと情報のない均一な破損プリアに依存し、幅広い破損に適用できるようにします。
単一の画像が与えられると、RIG はシーンと破損を結合して事後推論を実行します。
事前に神経放射フィールド (NeRF) シーンをトレーニングし、情報のない事前情報を配置する破損を表すために二次 NeRF を使用することで、このアイデアを実証します。
クリーン データのみでトレーニングされた RIG は、深度推定器や、完全な推論の代わりに点推定を実行する代替 NeRF アプローチよりも優れたパフォーマンスを発揮します。
この結果は、フローと拡散モデルの正規化に基づいた多くのシーンの事前アーキテクチャに当てはまります。
後者については、破損などの補助潜在変数の存在下で適用できる拡散条件付けアルゴリズムである補助潜在変数による再構築ガイダンス (ReGAL) を開発します。
RIG は、シーン プリアを生成タスクを超えてどのように使用できるかを示します。
要約(オリジナル)
How do we infer a 3D scene from a single image in the presence of corruptions like rain, snow or fog? Straightforward domain randomization relies on knowing the family of corruptions ahead of time. Here, we propose a Bayesian approach-dubbed robust inverse graphics (RIG)-that relies on a strong scene prior and an uninformative uniform corruption prior, making it applicable to a wide range of corruptions. Given a single image, RIG performs posterior inference jointly over the scene and the corruption. We demonstrate this idea by training a neural radiance field (NeRF) scene prior and using a secondary NeRF to represent the corruptions over which we place an uninformative prior. RIG, trained only on clean data, outperforms depth estimators and alternative NeRF approaches that perform point estimation instead of full inference. The results hold for a number of scene prior architectures based on normalizing flows and diffusion models. For the latter, we develop reconstruction-guidance with auxiliary latents (ReGAL)-a diffusion conditioning algorithm that is applicable in the presence of auxiliary latent variables such as the corruption. RIG demonstrates how scene priors can be used beyond generation tasks.
arxiv情報
著者 | Tuan Anh Le,Pavel Sountsov,Matthew D. Hoffman,Ben Lee,Brian Patton,Rif A. Saurous |
発行日 | 2024-06-11 17:19:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google