要約
Fillerbusterを提示します。これは、新しい大規模なマルチビュー潜在拡散トランスを利用することにより、3Dシーンの未知の領域を完成させる方法です。
カジュアルなキャプチャは、多くの場合、オブジェクトの後ろまたはシーンの上の周囲のコンテンツをまばらで見逃しています。
既存のメソッドは、既知のピクセルをスパースビュープライアーで見栄えを良くするか、1枚または2枚の写真からオブジェクトの欠落している側面を作成することに焦点を当てているため、この課題を処理するのに適していません。
実際には、多くの場合、数百の入力フレームがあり、入力フレームから欠落していない領域を完成させたいと考えています。
さらに、画像にはカメラのパラメーターが既知ではないことがよくあります。
私たちの解決策は、不明なターゲットビューを生成し、必要に応じて画像のポーズを回復しながら、入力フレームの大きなコンテキストを消費できる生成モデルをトレーニングすることです。
2つの既存のデータセットで部分的なキャプチャを完成させる結果を示します。
また、統一されたモデルがポーズの両方を予測し、新しいコンテンツを作成する非調整されたシーン完了タスクも提示します。
私たちのモデルは、シーンの完成のために一緒に多くの画像とポーズを予測する最初のモデルです。
要約(オリジナル)
We present Fillerbuster, a method that completes unknown regions of a 3D scene by utilizing a novel large-scale multi-view latent diffusion transformer. Casual captures are often sparse and miss surrounding content behind objects or above the scene. Existing methods are not suitable for handling this challenge as they focus on making the known pixels look good with sparse-view priors, or on creating the missing sides of objects from just one or two photos. In reality, we often have hundreds of input frames and want to complete areas that are missing and unobserved from the input frames. Additionally, the images often do not have known camera parameters. Our solution is to train a generative model that can consume a large context of input frames while generating unknown target views and recovering image poses when desired. We show results where we complete partial captures on two existing datasets. We also present an uncalibrated scene completion task where our unified model predicts both poses and creates new content. Our model is the first to predict many images and poses together for scene completion.
arxiv情報
著者 | Ethan Weber,Norman Müller,Yash Kant,Vasu Agrawal,Michael Zollhöfer,Angjoo Kanazawa,Christian Richardt |
発行日 | 2025-02-07 18:59:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google