要約
近年、顔ビデオ圧縮の需要が急激に増加しており、人工知能の成功により、従来のハイブリッド ビデオ コーディングの限界を超えています。
生成コーディング アプローチは、顔ビデオの統計的事前分布を活用し、知覚レートと歪みのトレードオフを合理的に備えた有望な代替手段として認識されています。
しかし、従来のハイブリッド コーディング フレームワークから生成モデルに至るまで、空間領域および時間領域における歪みの種類が非常に多様であるため、圧縮顔ビデオ品質評価 (VQA) では大きな課題が生じています。
この論文では、顔ビデオの知覚品質と多様な圧縮歪みを体系的に理解するための最初の試みである、大規模な圧縮顔ビデオ品質評価 (CFVQA) データベースを紹介します。
データベースには、複数の圧縮レベルで圧縮された 3,240 の顔ビデオ クリップが含まれています。これらは、ハイブリッド コーディング フレームワークに基づく 2 つの従来の手法、2 つのエンドツーエンド手法、および 2 つの生成手法を含む 6 つの代表的なビデオ コーデックを使用して、多様なコンテンツを含む 135 のソース ビデオから抽出されています。
メソッド。
さらに、顔ビデオ圧縮の FAce VideO IntegeRity (FAVOR) インデックスは、顔ビデオの個別のコンテンツ特性と時間的な事前分布を考慮して、知覚品質を測定するために開発されました。
実験結果は、提案された CFVQA データセットで優れたパフォーマンスを示しました。
このベンチマークは現在、https://github.com/Yixuan423/Compressed-Face-Videos-Quality-Assessment で公開されています。
要約(オリジナル)
Recent years have witnessed an exponential increase in the demand for face video compression, and the success of artificial intelligence has expanded the boundaries beyond traditional hybrid video coding. Generative coding approaches have been identified as promising alternatives with reasonable perceptual rate-distortion trade-offs, leveraging the statistical priors of face videos. However, the great diversity of distortion types in spatial and temporal domains, ranging from the traditional hybrid coding frameworks to generative models, present grand challenges in compressed face video quality assessment (VQA). In this paper, we introduce the large-scale Compressed Face Video Quality Assessment (CFVQA) database, which is the first attempt to systematically understand the perceptual quality and diversified compression distortions in face videos. The database contains 3,240 compressed face video clips in multiple compression levels, which are derived from 135 source videos with diversified content using six representative video codecs, including two traditional methods based on hybrid coding frameworks, two end-to-end methods, and two generative methods. In addition, a FAce VideO IntegeRity (FAVOR) index for face video compression was developed to measure the perceptual quality, considering the distinct content characteristics and temporal priors of the face videos. Experimental results exhibit its superior performance on the proposed CFVQA dataset. The benchmark is now made publicly available at: https://github.com/Yixuan423/Compressed-Face-Videos-Quality-Assessment.
arxiv情報
著者 | Yixuan Li,Bolin Chen,Baoliang Chen,Meng Wang,Shiqi Wang,Weisi Lin |
発行日 | 2023-10-29 14:06:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google