Video Diffusion Alignment via Reward Gradients

要約

私たちは、基礎的なビデオ普及モデルの構築に向けて大きな進歩を遂げました。
これらのモデルは大規模な教師なしデータを使用してトレーニングされるため、これらのモデルを特定の下流タスクに適応させることが重要になっています。
教師あり微調整によってこれらのモデルを適応させるには、ビデオのターゲット データセットを収集する必要がありますが、これは困難で退屈です。
この研究では、ビデオ拡散モデルを適応させるために、強力な視覚識別モデルに加えて好みを介して学習された事前トレーニング済みの報酬モデルを利用します。
これらのモデルには、生成された RGB ピクセルに関する高密度の勾配情報が含まれており、ビデオなどの複雑な検索空間で効率的に学習するために重要です。
これらの報酬モデルからビデオ拡散モデルへの勾配の逆伝播により、ビデオ拡散モデルの計算とサンプルの効率的な調整が可能になることを示します。
さまざまな報酬モデルとビデオ拡散モデルにわたる結果を示し、報酬クエリと計算に関して、私たちのアプローチが以前の勾配なしのアプローチよりもはるかに効率的に学習できることを示しています。
私たちのコード、モデルの重み、その他の視覚化は https://vader-vid.github.io で入手できます。

要約(オリジナル)

We have made significant progress towards building foundational video diffusion models. As these models are trained using large-scale unsupervised data, it has become crucial to adapt these models to specific downstream tasks. Adapting these models via supervised fine-tuning requires collecting target datasets of videos, which is challenging and tedious. In this work, we utilize pre-trained reward models that are learned via preferences on top of powerful vision discriminative models to adapt video diffusion models. These models contain dense gradient information with respect to generated RGB pixels, which is critical to efficient learning in complex search spaces, such as videos. We show that backpropagating gradients from these reward models to a video diffusion model can allow for compute and sample efficient alignment of the video diffusion model. We show results across a variety of reward models and video diffusion models, demonstrating that our approach can learn much more efficiently in terms of reward queries and computation than prior gradient-free approaches. Our code, model weights,and more visualization are available at https://vader-vid.github.io.

arxiv情報

著者 Mihir Prabhudesai,Russell Mendonca,Zheyang Qin,Katerina Fragkiadaki,Deepak Pathak
発行日 2024-07-11 17:59:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク