要約
タイトル:広いベースラインのステレオペアから新しい視点を描写するための学習
要約:
– 一対の広いベースラインのステレオ画像のみから、新しい視点を合成する方法を提案する。
– このチャレンジングな問題において、3Dシーンポイントは一度しか観測されないため、事前にシーンのジオメトリと外観を再構成する必要がある。
– これまでのスパースな観測から新しい視点を合成する手法は、誤った3Dジオメトリを回復することができず、大規模なトレーニングには差動可能なレンダリングの高コストが必要であったため、失敗している。
– 多視点トランスフォーマーエンコーダを用い、画像空間でのエピポーラ線サンプリングスキーム、軽量のクロスアテンションベースのレンダラーを提案することで、これらの欠点を解消する方向に進んでいる。
– 大規模な実世界の屋内および屋外シーンデータセットでこの手法をトレーニングすることができ、パワフルな多視点ジオメトリ事前知識を習得し、レンダリング時間を短縮することができることを示した。
– 実際のデータセットでのヘルドアウトテストシーンにおいて、スパースな画像観測から新しい視点を生成する先行技術を大幅に上回り、多視点一貫性のある新しい視点合成を達成した。
要約(オリジナル)
We introduce a method for novel view synthesis given only a single wide-baseline stereo image pair. In this challenging regime, 3D scene points are regularly observed only once, requiring prior-based reconstruction of scene geometry and appearance. We find that existing approaches to novel view synthesis from sparse observations fail due to recovering incorrect 3D geometry and due to the high cost of differentiable rendering that precludes their scaling to large-scale training. We take a step towards resolving these shortcomings by formulating a multi-view transformer encoder, proposing an efficient, image-space epipolar line sampling scheme to assemble image features for a target ray, and a lightweight cross-attention-based renderer. Our contributions enable training of our method on a large-scale real-world dataset of indoor and outdoor scenes. We demonstrate that our method learns powerful multi-view geometry priors while reducing the rendering time. We conduct extensive comparisons on held-out test scenes across two real-world datasets, significantly outperforming prior work on novel view synthesis from sparse image observations and achieving multi-view-consistent novel view synthesis.
arxiv情報
著者 | Yilun Du,Cameron Smith,Ayush Tewari,Vincent Sitzmann |
発行日 | 2023-04-17 17:40:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI