Fast Prompt Alignment for Text-to-Image Generation

要約

テキストから画像への生成は急速に進歩していますが、複雑なテキストのプロンプトと生成されたビジュアルを調整することは、特に複雑なオブジェクトの関係や細かい詳細の場合、依然として困難です。
このペーパーでは、ワンパス アプローチを活用するプロンプト最適化フレームワークである Fast Prompt Alignment (FPA) を紹介します。これにより、OPT2I などの現在の手法に典型的な反復的なオーバーヘッドを発生させることなく、テキストと画像の位置合わせの効率が向上します。
FPA は、単一反復プロンプトの言い換えに大規模言語モデル (LLM) を使用し、その後、最適化されたプロンプトを使用して微調整またはコンテキスト内学習を行うことで、リアルタイムの推論を可能にし、アライメントの忠実度を維持しながら計算量を削減します。
COCO Captions および PartiPrompts データセットに対する広範な評価により、自動化されたメトリクス (TIFA、VQA) と人間による評価の両方を通じて検証されたように、FPA がわずかな処理時間で競争力のあるテキストと画像の位置合わせスコアを達成することが実証されました。
専門のアノテーターによる人間による研究では、人間のアライメント判断と自動スコアとの間に強い相関関係があることがさらに明らかになり、FPA の改善の堅牢性が強調されています。
提案された方法は、反復的なプロンプト最適化に代わるスケーラブルで効率的な代替手段を示し、リアルタイムで需要の高い設定でより広範な適用可能性を可能にします。
コードベースは、さらなる調査を容易にするために提供されています: https://github.com/tiktok/fast_prompt_alignment

要約(オリジナル)

Text-to-image generation has advanced rapidly, yet aligning complex textual prompts with generated visuals remains challenging, especially with intricate object relationships and fine-grained details. This paper introduces Fast Prompt Alignment (FPA), a prompt optimization framework that leverages a one-pass approach, enhancing text-to-image alignment efficiency without the iterative overhead typical of current methods like OPT2I. FPA uses large language models (LLMs) for single-iteration prompt paraphrasing, followed by fine-tuning or in-context learning with optimized prompts to enable real-time inference, reducing computational demands while preserving alignment fidelity. Extensive evaluations on the COCO Captions and PartiPrompts datasets demonstrate that FPA achieves competitive text-image alignment scores at a fraction of the processing time, as validated through both automated metrics (TIFA, VQA) and human evaluation. A human study with expert annotators further reveals a strong correlation between human alignment judgments and automated scores, underscoring the robustness of FPA’s improvements. The proposed method showcases a scalable, efficient alternative to iterative prompt optimization, enabling broader applicability in real-time, high-demand settings. The codebase is provided to facilitate further research: https://github.com/tiktok/fast_prompt_alignment

arxiv情報

著者 Khalil Mrini,Hanlin Lu,Linjie Yang,Weilin Huang,Heng Wang
発行日 2024-12-11 18:58:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク