Customizing Text-to-Image Diffusion with Camera Viewpoint Control

要約

モデルのカスタマイズにより、既存のテキストから画像へのモデルに新しい概念が導入され、新しいコンテキストで新しい概念を生成できるようになります。
しかし、そのような方法ではオブジェクトに対する正確なカメラビュー制御が欠如しており、ユーザーは大まかなビュー制御を実現するために迅速なエンジニアリング(「トップビュー」の追加など)に頼らなければなりません。
この作業では、モデルのカスタマイズのためにカメラの視点を明示的に制御できるようにする新しいタスクを導入します。
これにより、追加のコントロールとしてターゲット カメラのポーズを組み込みながら、テキスト プロンプトを介してさまざまな背景シーンのオブジェクト プロパティを変更できるようになります。
この新しいタスクは、新しい概念のマルチビュー画像からの 3D 表現を一般的な 2D テキストから画像へのモデルと結合する際に、重大な課題を提示します。
このギャップを埋めるために、新しいオブジェクトのレンダリングされたビュー依存の特徴に基づいて 2D 拡散プロセスを条件付けることを提案します。
トレーニング中に、2D 拡散モジュールと 3D 特徴予測を共同で適応させて、入力マルチビュー画像へのオーバーフィッティングを軽減しながら、オブジェクトの外観と形状を再構築します。
私たちの方法は、入力テキスト プロンプトとオブジェクトのカメラ ポーズに従いながら、カスタム オブジェクトのアイデンティティを維持する点で、既存の画像編集とモデルのパーソナライゼーション ベースラインよりも優れています。

要約(オリジナル)

Model customization introduces new concepts to existing text-to-image models, enabling the generation of the new concept in novel contexts. However, such methods lack accurate camera view control w.r.t the object, and users must resort to prompt engineering (e.g., adding ‘top-view’) to achieve coarse view control. In this work, we introduce a new task — enabling explicit control of camera viewpoint for model customization. This allows us to modify object properties amongst various background scenes via text prompts, all while incorporating the target camera pose as additional control. This new task presents significant challenges in merging a 3D representation from the multi-view images of the new concept with a general, 2D text-to-image model. To bridge this gap, we propose to condition the 2D diffusion process on rendered, view-dependent features of the new object. During training, we jointly adapt the 2D diffusion modules and 3D feature predictions to reconstruct the object’s appearance and geometry while reducing overfitting to the input multi-view images. Our method outperforms existing image editing and model personalization baselines in preserving the custom object’s identity while following the input text prompt and the object’s camera pose.

arxiv情報

著者 Nupur Kumari,Grace Su,Richard Zhang,Taesung Park,Eli Shechtman,Jun-Yan Zhu
発行日 2024-04-18 16:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク