Drag View: Generalizable Novel View Synthesis with Unposed Imagery

要約

目に見えないシーンの新しいビューを生成するための斬新でインタラクティブなフレームワークである DragView を紹介します。
DragView は、単一のソース イメージから新しいビューを初期化し、レンダリングはポーズされていないマルチビュー イメージのまばらなセットによってサポートされ、すべて単一のフィードフォワード パス内でシームレスに実行されます。
私たちのアプローチは、ユーザーがローカル相対座標系を介してソース ビューをドラッグすることから始まります。
ピクセル位置合わせされた特徴は、ターゲット レイに沿ってサンプリングされた 3D ポイントをソース ビューに投影することによって取得されます。
次に、投影中にオクルージョンを効果的に処理するために、ビュー依存の変調レイヤーを組み込みます。
さらに、エピポーラ アテンション メカニズムをすべてのソース ピクセルを包含するように拡張し、他の未配置ビューからの初期化された座標位置合わせされたポイント フィーチャの集約を容易にします。
最後に、別の変換器を使用して、光線の特徴を最終的なピクセル強度にデコードします。
重要なことは、私たちのフレームワークは 2D の以前のモデルにも、カメラの姿勢の明示的な推定にも依存していないことです。
テスト中に、DragView は、トレーニング中には見ら​​れなかった新しいシーンに一般化する機能を示し、ポーズをとっていないサポート画像のみを利用して、柔軟なカメラ軌道を特徴とするフォトリアリスティックな新しいビューの生成を可能にします。
私たちの実験では、ポーズフリー条件下で動作する最近のシーン表現ネットワーク、およびノイズの多いテスト カメラ ポーズにさらされる一般化可能な NeRF と DragView のパフォーマンスの包括的な比較を行います。
DragView は、ビュー合成品質において優れたパフォーマンスを一貫して示していると同時に、よりユーザーフレンドリーでもあります。
プロジェクトページ: https://zhiwenfan.github.io/DragView/。

要約(オリジナル)

We introduce DragView, a novel and interactive framework for generating novel views of unseen scenes. DragView initializes the new view from a single source image, and the rendering is supported by a sparse set of unposed multi-view images, all seamlessly executed within a single feed-forward pass. Our approach begins with users dragging a source view through a local relative coordinate system. Pixel-aligned features are obtained by projecting the sampled 3D points along the target ray onto the source view. We then incorporate a view-dependent modulation layer to effectively handle occlusion during the projection. Additionally, we broaden the epipolar attention mechanism to encompass all source pixels, facilitating the aggregation of initialized coordinate-aligned point features from other unposed views. Finally, we employ another transformer to decode ray features into final pixel intensities. Crucially, our framework does not rely on either 2D prior models or the explicit estimation of camera poses. During testing, DragView showcases the capability to generalize to new scenes unseen during training, also utilizing only unposed support images, enabling the generation of photo-realistic new views characterized by flexible camera trajectories. In our experiments, we conduct a comprehensive comparison of the performance of DragView with recent scene representation networks operating under pose-free conditions, as well as with generalizable NeRFs subject to noisy test camera poses. DragView consistently demonstrates its superior performance in view synthesis quality, while also being more user-friendly. Project page: https://zhiwenfan.github.io/DragView/.

arxiv情報

著者 Zhiwen Fan,Panwang Pan,Peihao Wang,Yifan Jiang,Hanwen Jiang,Dejia Xu,Zehao Zhu,Dilin Wang,Zhangyang Wang
発行日 2023-10-05 17:24:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク