The Devil is in the Prompts: Retrieval-Augmented Prompt Optimization for Text-to-Video Generation

要約

大規模なデータセットで訓練されたテキストツービデオ(T2V)生成モデルの進化は、大幅な進歩によってマークされています。
ただし、入力プロンプトへのT2V生成モデルの感度は、生成結果に影響を与える際の迅速な設計の重要な役割を強調しています。
以前の研究では、主に大規模な言語モデル(LLM)に依存して、ユーザーが提供するプロンプトをトレーニングプロンプトの配布と整列させていますが、プロンプトの語彙と文の構造ニュアンスを含む調整されたガイダンスはありません。
この目的のために、新しい検索された迅速な最適化フレームワークであるRapoを紹介します。
LLMで生成されたプロンプトによって生成される潜在的な不正確さと曖昧な詳細に対処するため。
RAPOは、二重最適化ブランチを介して素朴なプロンプトを改良し、T2V生成の優れたプロンプトを選択します。
最初のBranchは、学習したリレーショナルグラフから抽出された多様な修飾子を使用してユーザープロンプトを増強し、微調整されたLLMを介してトレーニングプロンプトの形式に合わせて調整します。
逆に、2番目のブランチは、明確に定義された命令セットに従って、事前に訓練されたLLMを使用して素朴なプロンプトを書き直します。
広範な実験は、RAPOが生成されたビデオの静的および動的な寸法の両方を効果的に強化し、ユーザーが提供するプロンプトのプロンプト最適化の重要性を実証できることを示しています。

要約(オリジナル)

The evolution of Text-to-video (T2V) generative models, trained on large-scale datasets, has been marked by significant progress. However, the sensitivity of T2V generative models to input prompts highlights the critical role of prompt design in influencing generative outcomes. Prior research has predominantly relied on Large Language Models (LLMs) to align user-provided prompts with the distribution of training prompts, albeit without tailored guidance encompassing prompt vocabulary and sentence structure nuances. To this end, we introduce RAPO, a novel Retrieval-Augmented Prompt Optimization framework. In order to address potential inaccuracies and ambiguous details generated by LLM-generated prompts. RAPO refines the naive prompts through dual optimization branches, selecting the superior prompt for T2V generation. The first branch augments user prompts with diverse modifiers extracted from a learned relational graph, refining them to align with the format of training prompts via a fine-tuned LLM. Conversely, the second branch rewrites the naive prompt using a pre-trained LLM following a well-defined instruction set. Extensive experiments demonstrate that RAPO can effectively enhance both the static and dynamic dimensions of generated videos, demonstrating the significance of prompt optimization for user-provided prompts.

arxiv情報

著者 Bingjie Gao,Xinyu Gao,Xiaoxue Wu,Yujie Zhou,Yu Qiao,Li Niu,Xinyuan Chen,Yaohui Wang
発行日 2025-05-06 02:55:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク