Human-Activity AGV Quality Assessment: A Benchmark Dataset and an Objective Evaluation Metric

要約

AI を活用したビデオ生成技術は近年大幅に進歩しました。
ただし、人間の活動を伴う AI 生成ビデオ (AGV) は、多くの場合、視覚的および意味論的な大幅な歪みを示し、現実世界のシナリオでのビデオ生成テクノロジの実用化を妨げています。
この課題に対処するために、私たちは、視覚的な品質評価と意味の歪みの特定に焦点を当てた、人間の活動による AGV の品質評価に関する先駆的な研究を実施しています。
まず、AI 生成人間活動ビデオ品質評価 (Human-AGVQA) データセットを構築します。このデータセットは、多様な人間活動を説明する 400 個のテキスト プロンプトを使用した 8 つの一般的なテキスト動画変換 (T2V) モデルから派生した 3,200 台の AGV で構成されています。
私たちは主観的な調査を実施して、AGV の人間の外観の品質、動作の継続性の品質、および全体的なビデオの品質を評価し、人体の各部位の意味論的な問題を特定します。
Human-AGVQA に基づいて、T2V モデルのパフォーマンスをベンチマークし、さまざまなカテゴリの人間の活動を生成する際の強みと弱みを分析します。
次に、人間のアクティビティ AGV の品質を自動的に分析するために、AI 生成人間アクティビティ ビデオ品質メトリクス (GHVQ) という客観的な評価メトリクスを開発します。
GHVQ は、人間に焦点を当てた品質特徴、AI が生成したコンテンツを意識した品質特徴、および時間的連続性特徴を体系的に抽出し、人間の活動を伴う AGV の包括的で説明可能な品質指標となります。
広範な実験結果は、GHVQ が Human-AGVQA データセットの既存の品質指標を大幅に上回っていることを示し、人間の活動 AGV の品質を評価する際のその有効性を実証しています。
Human-AGVQA データセットと GHVQ メトリクスは、https://github.com/zczhang-sjtu/GHVQ.git で公開されます。

要約(オリジナル)

AI-driven video generation techniques have made significant progress in recent years. However, AI-generated videos (AGVs) involving human activities often exhibit substantial visual and semantic distortions, hindering the practical application of video generation technologies in real-world scenarios. To address this challenge, we conduct a pioneering study on human activity AGV quality assessment, focusing on visual quality evaluation and the identification of semantic distortions. First, we construct the AI-Generated Human activity Video Quality Assessment (Human-AGVQA) dataset, consisting of 3,200 AGVs derived from 8 popular text-to-video (T2V) models using 400 text prompts that describe diverse human activities. We conduct a subjective study to evaluate the human appearance quality, action continuity quality, and overall video quality of AGVs, and identify semantic issues of human body parts. Based on Human-AGVQA, we benchmark the performance of T2V models and analyze their strengths and weaknesses in generating different categories of human activities. Second, we develop an objective evaluation metric, named AI-Generated Human activity Video Quality metric (GHVQ), to automatically analyze the quality of human activity AGVs. GHVQ systematically extracts human-focused quality features, AI-generated content-aware quality features, and temporal continuity features, making it a comprehensive and explainable quality metric for human activity AGVs. The extensive experimental results show that GHVQ outperforms existing quality metrics on the Human-AGVQA dataset by a large margin, demonstrating its efficacy in assessing the quality of human activity AGVs. The Human-AGVQA dataset and GHVQ metric will be released in public at https://github.com/zczhang-sjtu/GHVQ.git

arxiv情報

著者 Zhichao Zhang,Wei Sun,Xinyue Li,Yunhao Li,Qihang Ge,Jun Jia,Zicheng Zhang,Zhongpeng Ji,Fengyu Sun,Shangling Jui,Xiongkuo Min,Guangtao Zhai
発行日 2024-11-25 17:58:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク