要約
大規模なテキストからビデオへのモデルは、幅広い下流アプリケーションに計り知れない可能性を秘めている。しかし、これらのモデルは、動的なオブジェクトの相互作用を正確に描写するのに苦労しており、しばしば非現実的な動きや現実世界の物理学に頻繁に違反する結果となる。大規模な言語モデルから着想を得た1つの解決策は、外部からのフィードバックを使用して、生成された出力を望ましい結果に合わせることです。これにより、モデルは自律的にその応答を改良することができ、大規模な手動データ収集を排除することができる。この研究では、テキストからビデオへのモデルにおいて、オブジェクトダイナミクスを強化するためのフィードバックの利用を研究する。どのような種類のフィードバックが、どのような自己改善アルゴリズムと組み合わされることで、最も効果的にテキストとビデオの位置合わせと現実的なオブジェクトの相互作用を改善できるのか?我々は、テキスト-ビデオモデルのオフラインRL微調整のための統一された確率的目的を導き出すことから始める。この視点は、KL正則化や政策投影のような既存のアルゴリズムの設計要素が、統一されたフレームワークの中で特定の選択肢としてどのように現れるかを明らかにする。次に、導出された手法を用いて、テキストとビデオのアライメントメトリクスのセット(CLIPスコア、オプティカルフローなど)を最適化するが、生成品質に関する人間の認識と一致しないことが多いことに気づく。この限界に対処するため、我々は視覚言語モデルを活用し、特に動画中のオブジェクトダイナミクスに合わせた、より微妙なフィードバックを提供することを提案する。我々の実験では、AIと人間の両方の評価によって確認されたように、バイナリAIフィードバックが動的なインタラクションのビデオ品質において最も顕著な改善を促進することで、我々の手法が効果的に様々な報酬を最適化できることを実証する。特に、複数のオブジェクト間の複雑なインタラクションや、オブジェクトが落下するリアルな描写を含むシナリオにおいて、AIフィードバックに由来する報酬信号を使用すると、大幅な改善が観察される。
要約(オリジナル)
Large text-to-video models hold immense potential for a wide range of downstream applications. However, these models struggle to accurately depict dynamic object interactions, often resulting in unrealistic movements and frequent violations of real-world physics. One solution inspired by large language models is to align generated outputs with desired outcomes using external feedback. This enables the model to refine its responses autonomously, eliminating extensive manual data collection. In this work, we investigate the use of feedback to enhance the object dynamics in text-to-video models. We aim to answer a critical question: what types of feedback, paired with which specific self-improvement algorithms, can most effectively improve text-video alignment and realistic object interactions? We begin by deriving a unified probabilistic objective for offline RL finetuning of text-to-video models. This perspective highlights how design elements in existing algorithms like KL regularization and policy projection emerge as specific choices within a unified framework. We then use derived methods to optimize a set of text-video alignment metrics (e.g., CLIP scores, optical flow), but notice that they often fail to align with human perceptions of generation quality. To address this limitation, we propose leveraging vision-language models to provide more nuanced feedback specifically tailored to object dynamics in videos. Our experiments demonstrate that our method can effectively optimize a wide variety of rewards, with binary AI feedback driving the most significant improvements in video quality for dynamic interactions, as confirmed by both AI and human evaluations. Notably, we observe substantial gains when using reward signals derived from AI feedback, particularly in scenarios involving complex interactions between multiple objects and realistic depictions of objects falling.
arxiv情報
著者 | Hiroki Furuta,Heiga Zen,Dale Schuurmans,Aleksandra Faust,Yutaka Matsuo,Percy Liang,Sherry Yang |
発行日 | 2024-12-03 17:44:23+00:00 |
arxivサイト | arxiv_id(pdf) |