要約
生成拡散モデルの最近の進歩により、テキストからビデオへの生成が大幅に進歩しました。
大規模で多様なデータセットでトレーニングされたテキストからビデオへのモデルはさまざまな出力を生成できますが、これらの世代はユーザーの好みから逸脱することが多く、事前トレーニングされたモデルでの好みの調整の必要性が浮き彫りになっています。
Direct Preference Optimization (DPO) は言語と画像の生成において大幅な改善を示していますが、私たちはビデオ拡散モデルへの適応の先駆けとなり、いくつかの重要な調整を行うことで VideoDPO パイプラインを提案します。
(i) 視覚的な品質、または (ii) テキストとビデオ間のセマンティックな調整のいずれかのみに焦点を当てたこれまでの画像調整方法とは異なり、私たちは両方の側面を包括的に考慮し、それに応じて好みのスコアを構築します。これをオムニスコアと呼びます。
私たちは、提案された OmniScore に基づいて嗜好ペアのデータを自動的に収集するパイプラインを設計し、スコアに基づいてこれらのペアの重み付けを変更すると、全体的な嗜好の調整に大きな影響を与えることがわかりました。
私たちの実験では、視覚的な品質とセマンティックな調整の両方が大幅に改善され、好みの側面が無視されていないことが確認されました。
コードとデータは https://videodpo.github.io/ で共有されます。
要約(オリジナル)
Recent progress in generative diffusion models has greatly advanced text-to-video generation. While text-to-video models trained on large-scale, diverse datasets can produce varied outputs, these generations often deviate from user preferences, highlighting the need for preference alignment on pre-trained models. Although Direct Preference Optimization (DPO) has demonstrated significant improvements in language and image generation, we pioneer its adaptation to video diffusion models and propose a VideoDPO pipeline by making several key adjustments. Unlike previous image alignment methods that focus solely on either (i) visual quality or (ii) semantic alignment between text and videos, we comprehensively consider both dimensions and construct a preference score accordingly, which we term the OmniScore. We design a pipeline to automatically collect preference pair data based on the proposed OmniScore and discover that re-weighting these pairs based on the score significantly impacts overall preference alignment. Our experiments demonstrate substantial improvements in both visual quality and semantic alignment, ensuring that no preference aspect is neglected. Code and data will be shared at https://videodpo.github.io/.
arxiv情報
著者 | Runtao Liu,Haoyu Wu,Zheng Ziqiang,Chen Wei,Yingqing He,Renjie Pi,Qifeng Chen |
発行日 | 2024-12-18 18:59:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google