GAIA: Rethinking Action Quality Assessment for AI-Generated Videos

要約

アクションの品質の評価は、AI 生成ビデオの品質に重大な影響を与えるため、必須かつ困難ですが、AI 生成ビデオ (AIGV) 内のアクションの本質的に曖昧な性質によってさらに複雑になります。
現在のアクション品質評価 (AQA) アルゴリズムは、主に実際の特定のシナリオからのアクションに焦点を当てており、規範的なアクション機能で事前にトレーニングされているため、AIGV には適用できません。
これらの問題に対処するために、私たちは、新しい因果推論に基づいた観点から大規模な主観的評価を実施することによって、汎用 AI 生成アクション データセットである GAIA を構築し、その結果、9,180 のビデオとアクションのペアの間で 971,244 件の評価が得られました。
GAIA に基づいて、視覚的に合理的なアクションを生成する機能について、一般的なテキストからビデオへの (T2V) モデルのスイートを評価し、さまざまなカテゴリのアクションの長所と短所を明らかにします。
また、既存の自動評価手法の AQA 能力をベンチマークするためのテストベッドとして GAIA を拡張します。
結果は、従来の AQA 手法、最近の T2V ベンチマークのアクション関連メトリクス、および主流のビデオ品質手法のパフォーマンスが低く、平均 SRCC がそれぞれ 0.454、0.191、0.519 であることを示しており、現在のモデルと人間のアクション知覚パターンの間には大きなギャップがあることが示されています。
AIGV。
私たちの発見は、AIGVを研究するための独自の視点としての行動の質の重要性を強調しており、AIGVにおけるAQAの能力を強化した方法への進歩を促進する可能性があります。

要約(オリジナル)

Assessing action quality is both imperative and challenging due to its significant impact on the quality of AI-generated videos, further complicated by the inherently ambiguous nature of actions within AI-generated video (AIGV). Current action quality assessment (AQA) algorithms predominantly focus on actions from real specific scenarios and are pre-trained with normative action features, thus rendering them inapplicable in AIGVs. To address these problems, we construct GAIA, a Generic AI-generated Action dataset, by conducting a large-scale subjective evaluation from a novel causal reasoning-based perspective, resulting in 971,244 ratings among 9,180 video-action pairs. Based on GAIA, we evaluate a suite of popular text-to-video (T2V) models on their ability to generate visually rational actions, revealing their pros and cons on different categories of actions. We also extend GAIA as a testbed to benchmark the AQA capacity of existing automatic evaluation methods. Results show that traditional AQA methods, action-related metrics in recent T2V benchmarks, and mainstream video quality methods perform poorly with an average SRCC of 0.454, 0.191, and 0.519, respectively, indicating a sizable gap between current models and human action perception patterns in AIGVs. Our findings underscore the significance of action quality as a unique perspective for studying AIGVs and can catalyze progress towards methods with enhanced capacities for AQA in AIGVs.

arxiv情報

著者 Zijian Chen,Wei Sun,Yuan Tian,Jun Jia,Zicheng Zhang,Jiarui Wang,Ru Huang,Xiongkuo Min,Guangtao Zhai,Wenjun Zhang
発行日 2024-10-14 15:45:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク