LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias

要約

我々は、ラージ ビュー合成モデル (LVSM) を提案します。これは、スパース ビュー入力からのスケーラブルかつ一般化可能な新しいビュー合成のための新しいトランスフォーマー ベースのアプローチです。
2 つのアーキテクチャを導入します。(1) エンコーダ/デコーダ LVSM は、入力画像トークンを固定数の 1D 潜在トークンにエンコードし、完全に学習されたシーン表現として機能し、それらからノベルビュー画像をデコードします。
(2) デコーダ専用の LVSM は、入力画像をノベルビュー出力に直接マッピングし、中間シーン表現を完全に排除します。
どちらのモデルも、3D 表現 (NeRF、3DGS など) からネットワーク設計 (エピポーラ投影、プレーン スイープなど) まで、以前の方法で使用されていた 3D 誘導バイアスをバイパスし、完全なデータ駆動型アプローチで新しいビュー合成に取り組みます。
エンコーダ-デコーダ モデルは独立した潜在表現により高速な推論を提供しますが、デコーダ専用 LVSM は優れた品質、スケーラビリティ、およびゼロショット汎化を実現し、以前の最先端の方法を 1.5 ~ 3.5 dB PSNR 上回ります。
複数のデータセットにわたる包括的な評価により、両方の LVSM バリアントが最先端の新規ビュー合成品質を達成していることが実証されています。
特に、私たちのモデルは、計算リソースが削減された場合でも (1 ~ 2 GPU)、以前のすべての方法を上回っています。
詳細については、当社の Web サイトをご覧ください: https://haian-jin.github.io/projects/LVSM/ 。

要約(オリジナル)

We propose the Large View Synthesis Model (LVSM), a novel transformer-based approach for scalable and generalizable novel view synthesis from sparse-view inputs. We introduce two architectures: (1) an encoder-decoder LVSM, which encodes input image tokens into a fixed number of 1D latent tokens, functioning as a fully learned scene representation, and decodes novel-view images from them; and (2) a decoder-only LVSM, which directly maps input images to novel-view outputs, completely eliminating intermediate scene representations. Both models bypass the 3D inductive biases used in previous methods — from 3D representations (e.g., NeRF, 3DGS) to network designs (e.g., epipolar projections, plane sweeps) — addressing novel view synthesis with a fully data-driven approach. While the encoder-decoder model offers faster inference due to its independent latent representation, the decoder-only LVSM achieves superior quality, scalability, and zero-shot generalization, outperforming previous state-of-the-art methods by 1.5 to 3.5 dB PSNR. Comprehensive evaluations across multiple datasets demonstrate that both LVSM variants achieve state-of-the-art novel view synthesis quality. Notably, our models surpass all previous methods even with reduced computational resources (1-2 GPUs). Please see our website for more details: https://haian-jin.github.io/projects/LVSM/ .

arxiv情報

著者 Haian Jin,Hanwen Jiang,Hao Tan,Kai Zhang,Sai Bi,Tianyuan Zhang,Fujun Luan,Noah Snavely,Zexiang Xu
発行日 2024-10-22 17:58:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク