RayZer: A Self-supervised Large View Synthesis Model

要約

3Dの監督なしで訓練された自己監視マルチビュー3Dビジョンモデル、つまりカメラのポーズとシーンのジオメトリであるRayzerを紹介します。
具体的には、Rayzerは入力として位置付けられていない無音画像を採用し、カメラのパラメーターを回復し、シーン表現を再構築し、新しいビューを合成します。
トレーニング中、Rayzerはターゲットビューをレンダリングするために自己予測カメラのポーズのみに依存し、グラウンドカメラの注釈が必要になり、Rayzerを2D画像監視でトレーニングできるようにします。
Rayzerの新たな3D認識は、2つの重要な要因に起因しています。
まず、カメラとシーンの表現を解き放つことにより、入力画像の3Dが認識している自動エンコードを実現する自己監視フレームワークを設計します。
第二に、カメラ、ピクセル、シーンを同時に接続するレイ構造である唯一の3Dの前のモデルが同時にレイ構造である変圧器ベースのモデルを設計します。
Rayzerは、トレーニングとテストの両方でポーズアノテーションに依存する「Oracle」方法と同等または優れた新規ビューの合成性能を示しています。
プロジェクト:https://hwjiang1510.github.io/rayzer/

要約(オリジナル)

We present RayZer, a self-supervised multi-view 3D Vision model trained without any 3D supervision, i.e., camera poses and scene geometry, while exhibiting emerging 3D awareness. Concretely, RayZer takes unposed and uncalibrated images as input, recovers camera parameters, reconstructs a scene representation, and synthesizes novel views. During training, RayZer relies solely on its self-predicted camera poses to render target views, eliminating the need for any ground-truth camera annotations and allowing RayZer to be trained with 2D image supervision. The emerging 3D awareness of RayZer is attributed to two key factors. First, we design a self-supervised framework, which achieves 3D-aware auto-encoding of input images by disentangling camera and scene representations. Second, we design a transformer-based model in which the only 3D prior is the ray structure, connecting camera, pixel, and scene simultaneously. RayZer demonstrates comparable or even superior novel view synthesis performance than “oracle” methods that rely on pose annotations in both training and testing. Project: https://hwjiang1510.github.io/RayZer/

arxiv情報

著者 Hanwen Jiang,Hao Tan,Peng Wang,Haian Jin,Yue Zhao,Sai Bi,Kai Zhang,Fujun Luan,Kalyan Sunkavalli,Qixing Huang,Georgios Pavlakos
発行日 2025-05-01 17:59:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク