要約
フローマッチングフレームワークでトレーニングされた修正フロー(RF)モデルは、テキストからイメージ(T2I)条件付きの最先端のパフォーマンスを達成しました。
しかし、複数のベンチマークは、合成画像がプロンプトとのアラインメントが不十分であること、つまり、画像が間違った属性のバインディング、サブジェクトの位置付け、数値などを示していることを示しています。文献はT2iのアライメントを改善するための多くの方法を提供しますが、拡散モデルのみを考慮し、補助データセット、スコアリングモデル、およびプロンプトの言語分析を必要とします。
この論文では、これらのギャップに対処することを目指しています。
まず、MI推定に事前に訓練されたモデル自体を使用するRFモデルの新しい相互情報(MI)推定器であるRFMIを紹介します。
次に、事前に訓練されたモデル自体以外の補助情報を必要としないRFMIに基づくT2Iアラインメントのための自己監視された微調整アプローチを調査します。
具体的には、事前に訓練されたRFモデルから生成された合成画像を選択し、画像とプロンプトの間に高い点でMIを持つことにより、微調整セットが構築されます。
MI推定ベンチマークでの実験はRFMIの妥当性を示しており、SD3.5メディアムの経験的微調整は、画質を維持しながらT2Iアライメントを改善するためのRFMIの有効性を確認します。
要約(オリジナル)
Rectified Flow (RF) models trained with a Flow matching framework have achieved state-of-the-art performance on Text-to-Image (T2I) conditional generation. Yet, multiple benchmarks show that synthetic images can still suffer from poor alignment with the prompt, i.e., images show wrong attribute binding, subject positioning, numeracy, etc. While the literature offers many methods to improve T2I alignment, they all consider only Diffusion Models, and require auxiliary datasets, scoring models, and linguistic analysis of the prompt. In this paper we aim to address these gaps. First, we introduce RFMI, a novel Mutual Information (MI) estimator for RF models that uses the pre-trained model itself for the MI estimation. Then, we investigate a self-supervised fine-tuning approach for T2I alignment based on RFMI that does not require auxiliary information other than the pre-trained model itself. Specifically, a fine-tuning set is constructed by selecting synthetic images generated from the pre-trained RF model and having high point-wise MI between images and prompts. Our experiments on MI estimation benchmarks demonstrate the validity of RFMI, and empirical fine-tuning on SD3.5-Medium confirms the effectiveness of RFMI for improving T2I alignment while maintaining image quality.
arxiv情報
著者 | Chao Wang,Giulio Franzese,Alessandro Finamore,Pietro Michiardi |
発行日 | 2025-03-18 15:41:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google