Improving Long-Text Alignment for Text-to-Image Diffusion Models

要約

テキストから画像への (T2I) 拡散モデルの急速な進歩により、与えられたテキストから前例のない結果を生成できるようになりました。
ただし、テキスト入力が長くなるにつれて、CLIP などの既存のエンコード方法では制限に直面し、生成された画像を長いテキストに合わせて配置することが困難になります。
これらの問題に取り組むために、我々は LongAlign を提案します。これには、長いテキストを処理するためのセグメントレベルのエンコード方法と、効果的な位置合わせトレーニングのための分解された優先順位の最適化方法が含まれています。
セグメントレベルのエンコードでは、長いテキストが複数のセグメントに分割され、個別に処理されます。
この方法は、事前トレーニングされたエンコード モデルの最大入力長制限を克服します。
嗜好の最適化のために、拡散モデルを微調整するために、分解された CLIP ベースの嗜好モデルを提供します。
具体的には、T2I アライメントに CLIP ベースのプリファレンス モデルを利用するために、そのスコアリング メカニズムを詳しく調べ、プリファレンス スコアが 2 つのコンポーネントに分解できることを発見しました。1 つは T2I アライメントを測定するテキスト関連部分、もう 1 つはその他のテキスト関連部分です。
人間の好みの視覚的な側面。
さらに、テキストに関係のない部分が、微調整中の一般的な過学習問題の原因となっていることがわかりました。
これに対処するために、これら 2 つのコンポーネントに異なる重みを割り当てる再重み付け戦略を提案します。これにより、過剰適合が軽減され、整合が強化されます。
私たちの方法を使用して $512 \times 512$ 安定拡散 (SD) v1.5 を約 20 時間微調整した後、微調整された SD は、PixArt-$\alpha$ や Kandinsky v2 などの T2I アライメントにおける強力な基礎モデルよりも優れたパフォーマンスを示しました。
2.
コードは https://github.com/luping-liu/LongAlign で入手できます。

要約(オリジナル)

The rapid advancement of text-to-image (T2I) diffusion models has enabled them to generate unprecedented results from given texts. However, as text inputs become longer, existing encoding methods like CLIP face limitations, and aligning the generated images with long texts becomes challenging. To tackle these issues, we propose LongAlign, which includes a segment-level encoding method for processing long texts and a decomposed preference optimization method for effective alignment training. For segment-level encoding, long texts are divided into multiple segments and processed separately. This method overcomes the maximum input length limits of pretrained encoding models. For preference optimization, we provide decomposed CLIP-based preference models to fine-tune diffusion models. Specifically, to utilize CLIP-based preference models for T2I alignment, we delve into their scoring mechanisms and find that the preference scores can be decomposed into two components: a text-relevant part that measures T2I alignment and a text-irrelevant part that assesses other visual aspects of human preference. Additionally, we find that the text-irrelevant part contributes to a common overfitting problem during fine-tuning. To address this, we propose a reweighting strategy that assigns different weights to these two components, thereby reducing overfitting and enhancing alignment. After fine-tuning $512 \times 512$ Stable Diffusion (SD) v1.5 for about 20 hours using our method, the fine-tuned SD outperforms stronger foundation models in T2I alignment, such as PixArt-$\alpha$ and Kandinsky v2.2. The code is available at https://github.com/luping-liu/LongAlign.

arxiv情報

著者 Luping Liu,Chao Du,Tianyu Pang,Zehan Wang,Chongxuan Li,Dong Xu
発行日 2024-10-15 17:46:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MM パーマリンク