要約
ビュー合成用のマルチビュー条件付き拡散モデルである EscherNet を紹介します。
EscherNet は、特殊なカメラ位置エンコーディングと組み合わせた暗黙的生成 3D 表現を学習し、任意の数の参照ビューとターゲット ビュー間のカメラ変換の正確かつ継続的な相対制御を可能にします。
EscherNet は、ビュー合成において優れた汎用性、柔軟性、スケーラビリティを提供します。3 つのターゲット ビューに対して 3 つの参照ビューという固定数でトレーニングされているにもかかわらず、単一のコンシューマー グレードの GPU で 100 を超える一貫したターゲット ビューを同時に生成できます。
その結果、EscherNet はゼロショットの新規ビュー合成に取り組むだけでなく、単一および複数画像の 3D 再構成を自然に統合し、これらの多様なタスクを単一の一貫したフレームワークに結合します。
私たちの広範な実験により、EscherNet は、個々の問題に合わせて特別に調整された方法と比較した場合でも、複数のベンチマークで最先端のパフォーマンスを達成できることが実証されています。
この驚くべき多用途性により、3D ビジョン用のスケーラブルなニューラル アーキテクチャの設計に新たな方向性が開かれます。
プロジェクト ページ: \url{https://kxhit.github.io/EscherNet}。
要約(オリジナル)
We introduce EscherNet, a multi-view conditioned diffusion model for view synthesis. EscherNet learns implicit and generative 3D representations coupled with a specialised camera positional encoding, allowing precise and continuous relative control of the camera transformation between an arbitrary number of reference and target views. EscherNet offers exceptional generality, flexibility, and scalability in view synthesis — it can generate more than 100 consistent target views simultaneously on a single consumer-grade GPU, despite being trained with a fixed number of 3 reference views to 3 target views. As a result, EscherNet not only addresses zero-shot novel view synthesis, but also naturally unifies single- and multi-image 3D reconstruction, combining these diverse tasks into a single, cohesive framework. Our extensive experiments demonstrate that EscherNet achieves state-of-the-art performance in multiple benchmarks, even when compared to methods specifically tailored for each individual problem. This remarkable versatility opens up new directions for designing scalable neural architectures for 3D vision. Project page: \url{https://kxhit.github.io/EscherNet}.
arxiv情報
著者 | Xin Kong,Shikun Liu,Xiaoyang Lyu,Marwan Taher,Xiaojuan Qi,Andrew J. Davison |
発行日 | 2024-02-06 11:21:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google