この論文では、単一の RGB 画像からの新規ビュー合成 (NVS) のタスクにテキストを導入する TOSS を紹介します。
Zero-1-to-3 は、優れたゼロショット オープンセット NVS 機能を実証しましたが、NVS を純粋な画像間の変換問題として扱います。
このアプローチは、シングルビュー NVS の制約が不十分なという困難な性質に悩まされています。プロセスには明示的なユーザー制御手段が欠如しており、多くの場合、信じられない NVS 生成が発生します。
この制限に対処するために、TOSS はテキストを高レベルのセマンティック情報として使用して、NVS ソリューション空間を制限します。
TOSS は、大規模なテキストと画像のペアで事前トレーニングされたテキストから画像への安定拡散を微調整し、画像とカメラのポーズ コンディショニングに特化したモジュールを導入するとともに、ポーズの正確さと細部の保存のための専用トレーニングを導入します。
包括的な実験が行われ、提案された TOSS が Zero-1-to-3 よりも優れたパフォーマンスを示し、より妥当で制御可能でマルチビューの一貫性のある NVS 結果が得られることが示されました。
さらに、導入されたセマンティック ガイダンスとアーキテクチャ設計の有効性と可能性を強調する包括的なアブレーションによって、これらの結果をサポートします。
In this paper, we present TOSS, which introduces text to the task of novel view synthesis (NVS) from just a single RGB image. While Zero-1-to-3 has demonstrated impressive zero-shot open-set NVS capability, it treats NVS as a pure image-to-image translation problem. This approach suffers from the challengingly under-constrained nature of single-view NVS: the process lacks means of explicit user control and often results in implausible NVS generations. To address this limitation, TOSS uses text as high-level semantic information to constrain the NVS solution space. TOSS fine-tunes text-to-image Stable Diffusion pre-trained on large-scale text-image pairs and introduces modules specifically tailored to image and camera pose conditioning, as well as dedicated training for pose correctness and preservation of fine details. Comprehensive experiments are conducted with results showing that our proposed TOSS outperforms Zero-1-to-3 with more plausible, controllable and multiview-consistent NVS results. We further support these results with comprehensive ablations that underscore the effectiveness and potential of the introduced semantic guidance and architecture design.
著者 | Yukai Shi,Jianan Wang,He Cao,Boshi Tang,Xianbiao Qi,Tianyu Yang,Yukun Huang,Shilong Liu,Lei Zhang,Heung-Yeung Shum |
発行日 | 2023-10-16 17:59:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google