Content-Rich AIGC Video Quality Assessment via Intricate Text Alignment and Motion-Aware Consistency

要約

\ textit {sora}のような次世代のビデオ生成モデルの出現は、AIに生成されたコンテンツ(AIGC)ビデオ品質評価(VQA)の課題をもたらします。
これらのモデルは、以前のモデルで一般的なちらつきのアーティファクトを大幅に軽減し、より長く複雑なテキストプロンプトを可能にし、複雑で多様なモーションパターンを備えた長いビデオを生成します。
単純なテキストと基本的なモーションパターン向けに設計された従来のVQAメソッドは、これらのコンテンツが豊富なビデオを評価するのに苦労しています。
この目的のために、\ textbf {crave}(\ underline {c} ontent- \ underline {r} ich \ underline {a} igc \ underline {v} ideo \ underline {e} vualator)を提案します。
SORA-ERA AIGCビデオ。
Craveは、長い形式の複雑なテキストセマンティクスをビデオダイナミクスに合わせた多粒度テキストと時代の融合を提案します。
さらに、Craveはハイブリッドモーションフィデリティモデリングを活用して、時間的アーティファクトを評価します。
さらに、現在のAIGC VQAデータセットの簡単なプロンプトとコンテンツを考慮して、\ textBf {crave-db}を紹介します。これは、次世代モデルのコンテンツが豊富なビデオと精巧なプロンプトを備えたベンチマークを紹介します。
広範な実験により、提案されたCraveは複数のAIGC VQAベンチマークで優れた結果を達成し、人間の知覚との高度な整合性を示していることが示されています。
すべてのデータとコードは、https://github.com/littlespray/craveで公開されます。

要約(オリジナル)

The advent of next-generation video generation models like \textit{Sora} poses challenges for AI-generated content (AIGC) video quality assessment (VQA). These models substantially mitigate flickering artifacts prevalent in prior models, enable longer and complex text prompts and generate longer videos with intricate, diverse motion patterns. Conventional VQA methods designed for simple text and basic motion patterns struggle to evaluate these content-rich videos. To this end, we propose \textbf{CRAVE} (\underline{C}ontent-\underline{R}ich \underline{A}IGC \underline{V}ideo \underline{E}valuator), specifically for the evaluation of Sora-era AIGC videos. CRAVE proposes the multi-granularity text-temporal fusion that aligns long-form complex textual semantics with video dynamics. Additionally, CRAVE leverages the hybrid motion-fidelity modeling to assess temporal artifacts. Furthermore, given the straightforward prompts and content in current AIGC VQA datasets, we introduce \textbf{CRAVE-DB}, a benchmark featuring content-rich videos from next-generation models paired with elaborate prompts. Extensive experiments have shown that the proposed CRAVE achieves excellent results on multiple AIGC VQA benchmarks, demonstrating a high degree of alignment with human perception. All data and code will be publicly available at https://github.com/littlespray/CRAVE.

arxiv情報

著者 Shangkun Sun,Xiaoyu Liang,Bowen Qu,Wei Gao
発行日 2025-02-06 13:41:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク