Refining Few-Step Text-to-Multiview Diffusion via Reinforcement Learning

要約

単一のテキストプロンプトからコヒーレントなマルチビュー画像を生成するテキストツーマルチビュー(T2MV)生成は、計算的に集中的なままであり、少数の拡散モデルを使用した加速T2MVメソッドは、しばしば画像の忠実度を犠牲にし、一貫性を見ることがよくあります。
これに対処するために、少数のT2MV拡散モデルに合わせて調整された新しい強化学習(RL)Finetuningフレームワークを提案して、視点ごとの忠実度とクロスビューの一貫性を共同で最適化します。
具体的には、まず、すべてのビューにわたってT2MV除去を単一の統一マルコフ決定プロセスとして再定式化し、共同ビューの報酬目標によって駆動されるマルチビューを認識したポリシーの最適化を可能にします。
次に、ZMV-SAMPLINGを導入します。これは、視点とテキスト条件付けの両方を強化するために反転変形パスを追加するテスト時間T2MVサンプリング手法であるZMV-SAMPLINGを導入し、推論時にT2MV生成が改善されます。
パフォーマンスの向上を基本サンプリングポリシーに内面化するために、ポリシー更新の学習信号として標準サンプリングに対するZMVサンプリングの報酬の利点を使用する新しいポリシー最適化戦略であるMV-Zigalを開発します。
最後に、ジョイントビューの報酬目標がビューごとの忠実度を低くしているが、シングルビューのメトリックを単純に最適化することは、クロスビューのアライメントを無視することに注意して、T2MV拡散モデルのRL Finetuningを再構成し、視点の忠実性を最大化する忠実な忠実性を最大化する制約された最適化問題として再構成します。
この制約された最適化パラダイムをMV-Zigalと統合することにより、MVC-Zigalと呼ばれる完全なRL Finetuningフレームワークを確立します。MVC-Zigalと呼ばれ、少数のT2MV拡散ベースラインを忠実と一貫性の両方で効果的に改良し、その少数の速度効率を維持します。

要約(オリジナル)

Text-to-multiview (T2MV) generation, which produces coherent multiview images from a single text prompt, remains computationally intensive, while accelerated T2MV methods using few-step diffusion models often sacrifice image fidelity and view consistency. To address this, we propose a novel reinforcement learning (RL) finetuning framework tailored for few-step T2MV diffusion models to jointly optimize per-view fidelity and cross-view consistency. Specifically, we first reformulate T2MV denoising across all views as a single unified Markov decision process, enabling multiview-aware policy optimization driven by a joint-view reward objective. Next, we introduce ZMV-Sampling, a test-time T2MV sampling technique that adds an inversion-denoising pass to reinforce both viewpoint and text conditioning, resulting in improved T2MV generation at the cost of inference time. To internalize its performance gains into the base sampling policy, we develop MV-ZigAL, a novel policy optimization strategy that uses reward advantages of ZMV-Sampling over standard sampling as learning signals for policy updates. Finally, noting that the joint-view reward objective under-optimizes per-view fidelity but naively optimizing single-view metrics neglects cross-view alignment, we reframe RL finetuning for T2MV diffusion models as a constrained optimization problem that maximizes per-view fidelity subject to an explicit joint-view constraint, thereby enabling more efficient and balanced policy updates. By integrating this constrained optimization paradigm with MV-ZigAL, we establish our complete RL finetuning framework, referred to as MVC-ZigAL, which effectively refines the few-step T2MV diffusion baseline in both fidelity and consistency while preserving its few-step efficiency.

arxiv情報

著者 Ziyi Zhang,Li Shen,Deheng Ye,Yong Luo,Huangxuan Zhao,Lefei Zhang
発行日 2025-05-26 15:11:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク