LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment

要約

テキストからビデオへの (T2V) 生成モデルの最近の進歩は、目覚ましい機能を示しています。
しかし、これらのモデルは、合成ビデオを人間の好みに合わせる(テキストの説明を正確に反映するなど)という点ではまだ不十分であり、人間の好みは本質的に主観的であり、目的関数として形式化するのが難しいため、これに対処するのは特に困難です。
したがって、この論文では、T2V モデルのアライメントに人間のフィードバックを活用する新しい微調整方法である LiFT を提案します。
具体的には、まず、人間による評価アノテーション データセット LiFT-HRA を構築します。これは、それぞれのスコアとそれに対応する根拠を含む、約 10,000 個の人間によるアノテーションで構成されます。
これに基づいて、人間の判断の代理として機能する報酬関数を効果的に学習する報酬モデル LiFT-Critic をトレーニングし、与えられたビデオと人間の期待との整合性を測定します。
最後に、学習した報酬関数を利用して、報酬重み付け尤度を最大化することで T2V モデルを調整します。
ケーススタディとして、パイプラインを CogVideoX-2B に適用し、微調整されたモデルが 16 のすべての指標にわたって CogVideoX-5B よりも優れていることを示し、合成ビデオの調整と品質を向上させる上で人間によるフィードバックの可能性を強調しています。

要約(オリジナル)

Recent advancements in text-to-video (T2V) generative models have shown impressive capabilities. However, these models are still inadequate in aligning synthesized videos with human preferences (e.g., accurately reflecting text descriptions), which is particularly difficult to address, as human preferences are inherently subjective and challenging to formalize as objective functions. Therefore, this paper proposes LiFT, a novel fine-tuning method leveraging human feedback for T2V model alignment. Specifically, we first construct a Human Rating Annotation dataset, LiFT-HRA, consisting of approximately 10k human annotations, each including a score and its corresponding rationale. Based on this, we train a reward model LiFT-Critic to learn reward function effectively, which serves as a proxy for human judgment, measuring the alignment between given videos and human expectations. Lastly, we leverage the learned reward function to align the T2V model by maximizing the reward-weighted likelihood. As a case study, we apply our pipeline to CogVideoX-2B, showing that the fine-tuned model outperforms the CogVideoX-5B across all 16 metrics, highlighting the potential of human feedback in improving the alignment and quality of synthesized videos.

arxiv情報

著者 Yibin Wang,Zhiyu Tan,Junyan Wang,Xiaomeng Yang,Cheng Jin,Hao Li
発行日 2024-12-24 11:57:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク