Perceptual Quality Assessment of Face Video Compression: A Benchmark and An Effective Method

要約

タイトル:顔のビデオ圧縮における知覚的品質評価:ベンチマークと効果的な手法

要約:

– 顔のビデオ圧縮の需要が急増しており、人工知能の成功により、伝統的なハイブリッドビデオコーディングを超えた境界が拡大しています。
– 統計的事前知識を利用した生成的コーディングアプローチは、合理的な知覚レート・歪みトレードオフを提供する有望な代替案として特定されています。
– しかしながら、空間的、時間的ドメインにおける多様な歪みタイプの多様性(従来のハイブリッドコーディングフレームワークから生成モデルまで)は、圧縮された顔のビデオ品質評価(VQA)において巨大な課題を提供しています。
– この論文では、顔のビデオの知覚品質と多様な圧縮歪みを体系的に理解するための初めての試みである大規模なCompressed Face Video Quality Assessment (CFVQA)データベースを紹介しています。
– データベースには、多数の圧縮レベルで3,240の圧縮された顔のビデオクリップが含まれており、6つの代表的なビデオコーデックを使用した多様な内容を持つ135のソースビデオから派生しています。これには、ハイブリッドコーディングフレームワークに基づく従来の2つの方法、エンドツーエンドの2つの方法、および2つの生成的方法が含まれます。
– さらに、顔のビデオの内容特性と時間的事前知識を考慮したFAce VideO IntegeRity (FAVOR)指標が開発され、知覚品質を測定するために使用されました。実験結果は、提案されたCFVQAデータセットにおけるその優れた性能を示しています。
– ベンチマークは、次の場所で一般公開されています:https://github.com/Yixuan423/Compressed-Face-Videos-Quality-Assessment。

要約(オリジナル)

Recent years have witnessed an exponential increase in the demand for face video compression, and the success of artificial intelligence has expanded the boundaries beyond traditional hybrid video coding. Generative coding approaches have been identified as promising alternatives with reasonable perceptual rate-distortion trade-offs, leveraging the statistical priors of face videos. However, the great diversity of distortion types in spatial and temporal domains, ranging from the traditional hybrid coding frameworks to generative models, present grand challenges in compressed face video quality assessment (VQA). In this paper, we introduce the large-scale Compressed Face Video Quality Assessment (CFVQA) database, which is the first attempt to systematically understand the perceptual quality and diversified compression distortions in face videos. The database contains 3,240 compressed face video clips in multiple compression levels, which are derived from 135 source videos with diversified content using six representative video codecs, including two traditional methods based on hybrid coding frameworks, two end-to-end methods, and two generative methods. In addition, a FAce VideO IntegeRity (FAVOR) index for face video compression was developed to measure the perceptual quality, considering the distinct content characteristics and temporal priors of the face videos. Experimental results exhibit its superior performance on the proposed CFVQA dataset. The benchmark is now made publicly available at: https://github.com/Yixuan423/Compressed-Face-Videos-Quality-Assessment.

arxiv情報

著者 Yixuan Li,Bolin Chen,Baoliang Chen,Meng Wang,Shiqi Wang
発行日 2023-04-14 11:26:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG, cs.MM, eess.IV パーマリンク