Flash3D: Feed-Forward Generalisable 3D Scene Reconstruction from a Single Image

要約

この論文では、非常に一般化可能で効率的な、単一の画像からシーンを再構成し、新しいビューを合成する方法である Flash3D を提案します。
一般化を図るため、単眼の奥行き推定の「基礎」モデルから開始し、それを完全な 3D 形状と外観の再構築器に拡張します。
効率性を高めるために、この拡張はフィードフォワード ガウス スプラッティングに基づいています。
具体的には、予測された深さで 3D ガウスの最初のレイヤーを予測し、空間内でオフセットされたガウスの追加レイヤーを追加して、モデルがオクルージョンやトランケーションの背後で再構築を完了できるようにします。
Flash3D は非常に効率的で、単一の GPU で 1 日でトレーニングできるため、ほとんどの研究者が利用できます。
RealEstate10k でトレーニングおよびテストすると、最先端の結果が得られます。
ニューヨーク大学のようなまだ見たことのないデータセットに転送すると、競合他社を大幅に上回るパフォーマンスを発揮します。
さらに印象的なのは、KITTI に転送すると、Flash3D はそのデータセットで特別にトレーニングされたメソッドよりも優れた PSNR を達成することです。
場合によっては、複数のビューを入力として使用する最近のメソッドよりも優れたパフォーマンスを発揮することさえあります。
コード、モデル、デモ、その他の結果は、https://www.robots.ox.ac.uk/~vgg/research/flash3d/ で入手できます。

要約(オリジナル)

In this paper, we propose Flash3D, a method for scene reconstruction and novel view synthesis from a single image which is both very generalisable and efficient. For generalisability, we start from a ‘foundation’ model for monocular depth estimation and extend it to a full 3D shape and appearance reconstructor. For efficiency, we base this extension on feed-forward Gaussian Splatting. Specifically, we predict a first layer of 3D Gaussians at the predicted depth, and then add additional layers of Gaussians that are offset in space, allowing the model to complete the reconstruction behind occlusions and truncations. Flash3D is very efficient, trainable on a single GPU in a day, and thus accessible to most researchers. It achieves state-of-the-art results when trained and tested on RealEstate10k. When transferred to unseen datasets like NYU it outperforms competitors by a large margin. More impressively, when transferred to KITTI, Flash3D achieves better PSNR than methods trained specifically on that dataset. In some instances, it even outperforms recent methods that use multiple views as input. Code, models, demo, and more results are available at https://www.robots.ox.ac.uk/~vgg/research/flash3d/.

arxiv情報

著者 Stanislaw Szymanowicz,Eldar Insafutdinov,Chuanxia Zheng,Dylan Campbell,João F. Henriques,Christian Rupprecht,Andrea Vedaldi
発行日 2024-06-06 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク