ERUPT: Efficient Rendering with Unposed Patch Transformer

要約

この作品は、RGB画像の小さなコレクションからの多様なシーンでの新しいビュー統合の問題に対処しています。
噴火(位置付けられていないパッチトランスによる効率的なレンダリング)を提案します。
既存のピクセルベースのクエリとは対照的に、パッチベースのクエリを導入して、ターゲットビューをレンダリングするために必要な計算を減らします。
これにより、トレーニング中と推論中の両方でモデルが非常に効率的になり、市販のハードウェアで600 fpsでレンダリングできます。
特に、私たちのモデルは、スパースまたは不正確なグラウンドトゥルースカメラのポーズを使用して、データセットで位置付けられていないターゲットを使用するトレーニングを可能にする学習潜在カメラポーズを使用するように設計されています。
私たちのアプローチは、大規模な現実世界のデータを一般化し、Mapillaryから収集されたStreet-View画像を使用して潜在ビュー合成のための新しいベンチマークデータセット(MSVS-1M)を導入できることを示しています。
密な画像と正確なメタデータを必要とするnerfおよびガウスの飛び散とは対照的に、噴火は、わずか5つのポーズのない入力画像を持つ任意のシーンの新しい見解をレンダリングする可能性があります。
噴火は、現在の位置付けられていない画像合成タスクの最先端の方法よりも優れたレンダリングされた画質を達成し、ラベル付きデータ要件を〜95 \%だけ減らし、計算要件を数桁減らし、多様な現実世界のシーンに効率的な新規ビュー合成を提供します。

要約(オリジナル)

This work addresses the problem of novel view synthesis in diverse scenes from small collections of RGB images. We propose ERUPT (Efficient Rendering with Unposed Patch Transformer) a state-of-the-art scene reconstruction model capable of efficient scene rendering using unposed imagery. We introduce patch-based querying, in contrast to existing pixel-based queries, to reduce the compute required to render a target view. This makes our model highly efficient both during training and at inference, capable of rendering at 600 fps on commercial hardware. Notably, our model is designed to use a learned latent camera pose which allows for training using unposed targets in datasets with sparse or inaccurate ground truth camera pose. We show that our approach can generalize on large real-world data and introduce a new benchmark dataset (MSVS-1M) for latent view synthesis using street-view imagery collected from Mapillary. In contrast to NeRF and Gaussian Splatting, which require dense imagery and precise metadata, ERUPT can render novel views of arbitrary scenes with as few as five unposed input images. ERUPT achieves better rendered image quality than current state-of-the-art methods for unposed image synthesis tasks, reduces labeled data requirements by ~95\% and decreases computational requirements by an order of magnitude, providing efficient novel view synthesis for diverse real-world scenes.

arxiv情報

著者 Maxim V. Shugaev,Vincent Chen,Maxim Karrenbach,Kyle Ashley,Bridget Kennedy,Naresh P. Cuntoor
発行日 2025-03-31 17:53:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク