Discriminator-Free Direct Preference Optimization for Video Diffusion

要約

直接選好最適化(DPO)は、WIN/LOSITデータペアを通じてモデルを人間の好みに合わせて、言語と画像生成で顕著な成功を収めています。
ただし、ビデオ拡散モデルにDPOを適用すると、重要な課題に直面しています。(1)データの非効率性。
DPOイテレーションごとに数千のビデオを生成すると、法外なコストが発生します。
(2)評価の不確実性。
人間の注釈は主観的なバイアスに悩まされ、自動化された判別器は、ちらつきや動きの一貫性のない微妙な時間的アーティファクトを検出できません。
これらに対処するために、(1)オリジナルの実際のビデオをWINケースとして使用し、編集されたバージョン(例:逆転、シャッフル、またはノイズ腐敗したクリップ)を失うケースとして使用する。
(2)編集によって導入されたアーティファクトを区別および回避するために、ビデオ拡散モデルをトレーニングします。
このアプローチは、費用のかかる合成ビデオ比較の必要性を排除し、明確な品質信号を提供し、単純な編集操作を通じて無制限のトレーニングデータの拡張を可能にします。
実際のビデオやモデル生成ビデオが異なる分布に従っている場合でも、フレームワークの有効性を理論的に証明します。
Cogvideoxの実験は、提案された方法の効率を示しています。

要約(オリジナル)

Direct Preference Optimization (DPO), which aligns models with human preferences through win/lose data pairs, has achieved remarkable success in language and image generation. However, applying DPO to video diffusion models faces critical challenges: (1) Data inefficiency. Generating thousands of videos per DPO iteration incurs prohibitive costs; (2) Evaluation uncertainty. Human annotations suffer from subjective bias, and automated discriminators fail to detect subtle temporal artifacts like flickering or motion incoherence. To address these, we propose a discriminator-free video DPO framework that: (1) Uses original real videos as win cases and their edited versions (e.g., reversed, shuffled, or noise-corrupted clips) as lose cases; (2) Trains video diffusion models to distinguish and avoid artifacts introduced by editing. This approach eliminates the need for costly synthetic video comparisons, provides unambiguous quality signals, and enables unlimited training data expansion through simple editing operations. We theoretically prove the framework’s effectiveness even when real videos and model-generated videos follow different distributions. Experiments on CogVideoX demonstrate the efficiency of the proposed method.

arxiv情報

著者 Haoran Cheng,Qide Dong,Liang Peng,Zhizhou Sha,Weiguo Feng,Jinghui Xie,Zhao Song,Shilei Wen,Xiaofei He,Boxi Wu
発行日 2025-04-11 13:55:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク