Referee Can Play: An Alternative Approach to Conditional Generation via Model Inversion

要約

テキストから画像への生成タスクの主要な要素である拡散確率モデル (DPM) は、制御性において重大な課題に直面しており、複雑で多面的な命令を厳密に遵守するのに苦労しています。
この作業では、条件付き生成タスクのこの位置合わせの課題に対処することを目的としています。
まず、高度な視覚言語モデル (VLM) を反転する方法として、最先端の DPM の代替ビューを提供します。
この定式化により、DPM に関連する従来のサンプリング プロセスをバイパスする、トレーニング不要のアプローチを当然提案します。
提案された方法は、識別 VLM の監視によって画像を直接最適化することで、より優れたテキストと画像の位置合わせを達成できる可能性があります。
概念実証として、事前トレーニングされた BLIP-2 モデルを使用してパイプラインを実証し、画像生成を改善するためのいくつかの重要な設計を特定します。
画像の忠実度をさらに高めるために、安定拡散のスコア蒸留サンプリング モジュールが組み込まれています。
最適化中に 2 つのコンポーネントのバランスを注意深く調整することにより、私たちの方法は、T2I-Compbench でほぼ最先端のパフォーマンスを備えた高品質の画像を生成できます。

要約(オリジナル)

As a dominant force in text-to-image generation tasks, Diffusion Probabilistic Models (DPMs) face a critical challenge in controllability, struggling to adhere strictly to complex, multi-faceted instructions. In this work, we aim to address this alignment challenge for conditional generation tasks. First, we provide an alternative view of state-of-the-art DPMs as a way of inverting advanced Vision-Language Models (VLMs). With this formulation, we naturally propose a training-free approach that bypasses the conventional sampling process associated with DPMs. By directly optimizing images with the supervision of discriminative VLMs, the proposed method can potentially achieve a better text-image alignment. As proof of concept, we demonstrate the pipeline with the pre-trained BLIP-2 model and identify several key designs for improved image generation. To further enhance the image fidelity, a Score Distillation Sampling module of Stable Diffusion is incorporated. By carefully balancing the two components during optimization, our method can produce high-quality images with near state-of-the-art performance on T2I-Compbench.

arxiv情報

著者 Xuantong Liu,Tianyang Hu,Wenjia Wang,Kenji Kawaguchi,Yuan Yao
発行日 2024-02-26 05:08:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク