Efficient-3DiM: Learning a Generalizable Single-image Novel-view Synthesizer in One Day

要約

新規ビュー合成のタスクは、限られた入力画像のセットからオブジェクトまたはシーンのまだ見られない視点を生成することを目的としています。
それにもかかわらず、単一の画像から新しいビューを合成することは、コンピューター ビジョンの分野では依然として大きな課題です。
これまでのアプローチでは、メッシュ予測、マルチプレーン画像構築、または神経放射フィールドなどのより高度な技術を採用することで、この問題に取り組んできました。
最近、2D 画像合成用に特別に設計された事前トレーニング済みの拡散モデルが、3D 微調整タスクで十分に最適化されていれば、フォトリアリスティックな新しいビューを生成できる能力を実証しました。
忠実度と一般化可能性は大幅に向上しましたが、このような強力な拡散モデルのトレーニングには膨大な量のトレーニング データとモデル パラメーターが必要となり、その結果、非常に長い時間と高い計算コストが発生します。
この問題に取り組むために、単一イメージのノベルビュー シンセサイザーを学習するためのシンプルだが効果的なフレームワークである Efficient-3DiM を提案します。
拡散モデルの推論プロセスの詳細な分析を動機として、私たちは、巧妙に作られたタイムステップ サンプリング戦略、優れた 3D 特徴抽出器、強化されたトレーニング スキームなど、トレーニングのオーバーヘッドを管理可能な規模まで削減するためのいくつかの実用的な戦略を提案します。
私たちのフレームワークを組み合わせると、合計トレーニング時間を 10 日から 1 日未満に短縮でき、同じ計算プラットフォーム (8 個の Nvidia A100 GPU を備えた 1 つのインスタンス) の下でトレーニング プロセスを大幅に高速化できます。
提案した方法の効率性と一般化可能性を実証するために、包括的な実験が行われます。

要約(オリジナル)

The task of novel view synthesis aims to generate unseen perspectives of an object or scene from a limited set of input images. Nevertheless, synthesizing novel views from a single image still remains a significant challenge in the realm of computer vision. Previous approaches tackle this problem by adopting mesh prediction, multi-plain image construction, or more advanced techniques such as neural radiance fields. Recently, a pre-trained diffusion model that is specifically designed for 2D image synthesis has demonstrated its capability in producing photorealistic novel views, if sufficiently optimized on a 3D finetuning task. Although the fidelity and generalizability are greatly improved, training such a powerful diffusion model requires a vast volume of training data and model parameters, resulting in a notoriously long time and high computational costs. To tackle this issue, we propose Efficient-3DiM, a simple but effective framework to learn a single-image novel-view synthesizer. Motivated by our in-depth analysis of the inference process of diffusion models, we propose several pragmatic strategies to reduce the training overhead to a manageable scale, including a crafted timestep sampling strategy, a superior 3D feature extractor, and an enhanced training scheme. When combined, our framework is able to reduce the total training time from 10 days to less than 1 day, significantly accelerating the training process under the same computational platform (one instance with 8 Nvidia A100 GPUs). Comprehensive experiments are conducted to demonstrate the efficiency and generalizability of our proposed method.

arxiv情報

著者 Yifan Jiang,Hao Tang,Jen-Hao Rick Chang,Liangchen Song,Zhangyang Wang,Liangliang Cao
発行日 2023-10-04 17:57:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク