要約
テキストからビデオへのモデルは、高品質のテキストとビデオのペアの最適化を通じて目覚ましい進歩を遂げました。テキストのプロンプトは、出力ビデオの品質を決定する上で極めて重要な役割を果たします。
ただし、目的の出力を達成するには、多くの場合、ユーザー提供のプロンプトを改良するための複数の修正と反復推論が必要になります。
プロンプトを調整する現在の自動方法は、テキストからビデオへの拡散モデルに適用すると、モダリティの不一致、コストの不一致、モデル非認識などの課題に直面します。
これらの問題に対処するために、Prompt-A-Video と呼ばれる LLM ベースのプロンプト適応フレームワークを導入します。これは、特定のビデオ普及モデルに合わせて調整された、ビデオ中心で労働力のない、好みに合わせたプロンプトの作成に優れています。
私たちのアプローチには、細心の注意を払って作成された 2 段階の最適化および調整システムが含まれます。
最初に、報酬に基づくプロンプト進化パイプラインを実行して、最適なプロンプト プールを自動的に作成し、LLM の教師あり微調整 (SFT) にそれらを活用します。
次に、多次元報酬を使用して SFT モデルのペアごとのデータを生成し、続いて直接嗜好最適化 (DPO) アルゴリズムを使用して嗜好の調整をさらに促進します。
広範な実験と比較分析を通じて、さまざまな世代モデルにわたる Prompt-A-Video の有効性を検証し、ビデオ生成の限界を押し広げる可能性を強調しています。
要約(オリジナル)
Text-to-video models have made remarkable advancements through optimization on high-quality text-video pairs, where the textual prompts play a pivotal role in determining quality of output videos. However, achieving the desired output often entails multiple revisions and iterative inference to refine user-provided prompts. Current automatic methods for refining prompts encounter challenges such as Modality-Inconsistency, Cost-Discrepancy, and Model-Unaware when applied to text-to-video diffusion models. To address these problem, we introduce an LLM-based prompt adaptation framework, termed as Prompt-A-Video, which excels in crafting Video-Centric, Labor-Free and Preference-Aligned prompts tailored to specific video diffusion model. Our approach involves a meticulously crafted two-stage optimization and alignment system. Initially, we conduct a reward-guided prompt evolution pipeline to automatically create optimal prompts pool and leverage them for supervised fine-tuning (SFT) of the LLM. Then multi-dimensional rewards are employed to generate pairwise data for the SFT model, followed by the direct preference optimization (DPO) algorithm to further facilitate preference alignment. Through extensive experimentation and comparative analyses, we validate the effectiveness of Prompt-A-Video across diverse generation models, highlighting its potential to push the boundaries of video generation.
arxiv情報
著者 | Yatai Ji,Jiacheng Zhang,Jie Wu,Shilong Zhang,Shoufa Chen,Chongjian GE,Peize Sun,Weifeng Chen,Wenqi Shao,Xuefeng Xiao,Weilin Huang,Ping Luo |
発行日 | 2024-12-19 18:32:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google