OnlineVPO: Align Video Diffusion Model with Online Video-Centric Preference Optimization

要約

近年、テキストからビデオ (T2V) 生成の分野が大幅に進歩しました。
このような進歩にもかかわらず、理論的な進歩と実用化の間には依然としてギャップがあり、画質の低下やちらつきアーチファクトなどの問題によってさらに大きくなっています。
フィードバック学習によるビデオ拡散モデル (VDM) の強化における最近の進歩により、有望な結果が示されています。
ただし、これらの方法には、不整合なフィードバックや劣ったスケーラビリティなど、依然として顕著な制限があります。
これらの問題に取り組むために、特にビデオ拡散モデルに合わせて調整された、より効率的な嗜好学習アプローチである OnlineVPO を紹介します。
私たちの方法は 2 つの新しい設計を特徴としています。まず、画像ベースの報酬フィードバックを直接使用する代わりに、合成データでトレーニングされたビデオ品質評価 (VQA) モデルを報酬モデルとして活用し、ビデオ拡散モデルに配信とモダリティに合わせたフィードバックを提供します。

さらに、既存のビデオ設定学習フレームワークにおけるポリシー外の最適化とスケーラビリティの問題に対処するために、オンライン DPO アルゴリズムを導入します。
ビデオ報酬モデルを採用してその場で簡潔なビデオ フィードバックを提供することにより、OnlineVPO は効果的かつ効率的な好みのガイダンスを提供します。
オープンソースのビデオ拡散モデルに関する広範な実験により、OnlineVPO がビデオ拡散モデル用のシンプルでありながら効果的で、さらに重要なことにスケーラブルな嗜好学習アルゴリズムであることが実証され、この分野の将来の進歩に貴重な洞察を提供します。

要約(オリジナル)

In recent years, the field of text-to-video (T2V) generation has made significant strides. Despite this progress, there is still a gap between theoretical advancements and practical application, amplified by issues like degraded image quality and flickering artifacts. Recent advancements in enhancing the video diffusion model (VDM) through feedback learning have shown promising results. However, these methods still exhibit notable limitations, such as misaligned feedback and inferior scalability. To tackle these issues, we introduce OnlineVPO, a more efficient preference learning approach tailored specifically for video diffusion models. Our method features two novel designs, firstly, instead of directly using image-based reward feedback, we leverage the video quality assessment (VQA) model trained on synthetic data as the reward model to provide distribution and modality-aligned feedback on the video diffusion model. Additionally, we introduce an online DPO algorithm to address the off-policy optimization and scalability issue in existing video preference learning frameworks. By employing the video reward model to offer concise video feedback on the fly, OnlineVPO offers effective and efficient preference guidance. Extensive experiments on the open-source video-diffusion model demonstrate OnlineVPO as a simple yet effective and more importantly scalable preference learning algorithm for video diffusion models, offering valuable insights for future advancements in this domain.

arxiv情報

著者 Jiacheng Zhang,Jie Wu,Weifeng Chen,Yatai Ji,Xuefeng Xiao,Weilin Huang,Kai Han
発行日 2024-12-19 18:34:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク