Video-T1: Test-Time Scaling for Video Generation

要約

トレーニングデータ、モデルサイズ、および計算コストの増加のスケール機能により、ビデオ生成はデジタル作成において印象的な結果を達成し、ユーザーがさまざまなドメインで創造性を表現できるようになりました。
最近、大規模な言語モデル(LLMS)の研究者は、スケーリングをテスト時間に拡大しました。
高価なトレーニングコストを通じてビデオファンデーションモデルをスケーリングする代わりに、ビデオ生成のテスト時間スケーリング(TTS)の力を調査し、質問に答えることを目指しています。ビデオ生成モデルが非些細な量の推論時間計算を使用することが許可されている場合、挑戦的なテキストプロンプトを考えると生成品質を改善できます。
この作業では、ビデオ生成のテスト時間スケーリングを検索問題として再解釈して、ガウスノイズスペースからターゲットビデオ配信までのより良い軌跡をサンプリングします。
具体的には、テスト時間検証剤を使用して検索スペースを構築して、検索プロセスをガイドするフィードバックとヒューリスティックアルゴリズムを提供します。
テキストプロンプトが与えられた場合、推論時にノイズ候補を増やすことにより、最初に直感的な線形検索戦略を探ります。
すべてのフレームを同時に除去するためには、テスト時間の計算コストが大幅に必要であるため、ビデオブランチを適応的に拡張およびプルーン化するビデオ生成(TOF)と呼ばれるビデオ生成のためのより効率的なTTSメソッドをさらに設計します。
テキスト条件付けされたビデオ生成ベンチマークに関する広範な実験は、テスト時間計算の増加が一貫してビデオの品質を大幅に改善することを示しています。
プロジェクトページ:https://liuff19.github.io/video-t1

要約(オリジナル)

With the scale capability of increasing training data, model size, and computational cost, video generation has achieved impressive results in digital creation, enabling users to express creativity across various domains. Recently, researchers in Large Language Models (LLMs) have expanded the scaling to test-time, which can significantly improve LLM performance by using more inference-time computation. Instead of scaling up video foundation models through expensive training costs, we explore the power of Test-Time Scaling (TTS) in video generation, aiming to answer the question: if a video generation model is allowed to use non-trivial amount of inference-time compute, how much can it improve generation quality given a challenging text prompt. In this work, we reinterpret the test-time scaling of video generation as a searching problem to sample better trajectories from Gaussian noise space to the target video distribution. Specifically, we build the search space with test-time verifiers to provide feedback and heuristic algorithms to guide searching process. Given a text prompt, we first explore an intuitive linear search strategy by increasing noise candidates at inference time. As full-step denoising all frames simultaneously requires heavy test-time computation costs, we further design a more efficient TTS method for video generation called Tree-of-Frames (ToF) that adaptively expands and prunes video branches in an autoregressive manner. Extensive experiments on text-conditioned video generation benchmarks demonstrate that increasing test-time compute consistently leads to significant improvements in the quality of videos. Project page: https://liuff19.github.io/Video-T1

arxiv情報

著者 Fangfu Liu,Hanyang Wang,Yimo Cai,Kaiyan Zhang,Xiaohang Zhan,Yueqi Duan
発行日 2025-04-01 06:52:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク