AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views

要約

非調整された画像コレクションからの新しいビュー合成のためのフィードフォワードネットワークであるAnySplatを紹介します。
既知のカメラのポーズとシーンごとの最適化を要求する従来のニューラルレンダリングパイプライン、または密なビューの計算重量の下で屈する最近のフィードフォワードメソッドとは対照的に、モデルはすべてを1つのショットで予測します。
単一のフォワードパスは、シーンのジオメトリと外観の両方をコードする3Dガウスプリミティブのセット、および各入力画像の対応するカメラの内在性と外因性を生成します。
この統一された設計は、何らかのポーズ注釈なしで、さりげなくキャプチャしてマルチビューデータセットをキャプチャして簡単に拡大します。
広範なゼロショット評価では、AnySplatは、既存のポーズフリーアプローチを上回りながら、まばらなビューシナリオと密度の高いビューシナリオのポーズ認識ベースラインの品質と一致します。
さらに、最適化ベースのニューラルフィールドと比較してレンダリングのレイニングを大幅に削減し、制約のないキャプチャ設定のリーチ内でリアルタイムの新しいビューシンシシスをもたらします。

要約(オリジナル)

We introduce AnySplat, a feed forward network for novel view synthesis from uncalibrated image collections. In contrast to traditional neural rendering pipelines that demand known camera poses and per scene optimization, or recent feed forward methods that buckle under the computational weight of dense views, our model predicts everything in one shot. A single forward pass yields a set of 3D Gaussian primitives encoding both scene geometry and appearance, and the corresponding camera intrinsics and extrinsics for each input image. This unified design scales effortlessly to casually captured, multi view datasets without any pose annotations. In extensive zero shot evaluations, AnySplat matches the quality of pose aware baselines in both sparse and dense view scenarios while surpassing existing pose free approaches. Moreover, it greatly reduce rendering latency compared to optimization based neural fields, bringing real time novel view synthesis within reach for unconstrained capture settings.Project page: https://city-super.github.io/anysplat/

arxiv情報

著者 Lihan Jiang,Yucheng Mao,Linning Xu,Tao Lu,Kerui Ren,Yichen Jin,Xudong Xu,Mulin Yu,Jiangmiao Pang,Feng Zhao,Dahua Lin,Bo Dai
発行日 2025-05-29 17:49:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク