Modular Blind Video Quality Assessment

要約

ブラインド ビデオ品質評価 (BVQA) は、幅広いビデオベースのプラットフォームおよびサービスにわたるエンド ユーザーの視聴エクスペリエンスを評価および改善する上で極めて重要な役割を果たします。
現代の深層学習ベースのモデルは、主に積極的にダウンサンプリングされた形式でビデオ コンテンツを分析しますが、実際の空間解像度とフレーム レートがビデオ品質に与える影響については認識していません。
この論文では、モジュール型 BVQA モデルと、そのモジュール性を向上させるためにモデルをトレーニングする方法を提案します。
具体的には、私たちのモデルは、ビデオ品質の視覚コンテンツと歪み、空間解像度、フレーム レートの変化にそれぞれ対応する、基本品質予測器、空間整流器、時間整流器で構成されています。
トレーニング中に、基本品質予測子をスタンドアロンの BVQA モデルにするために、空間的および時間的整流器が一定の確率で削除されます。これにより、整流器との連携が向上します。
プロが作成したコンテンツとユーザーが作成したコンテンツのビデオ データベースの両方に対する広範な実験により、当社の品質モデルが現在の方法よりも優れた、または同等のパフォーマンスを達成できることが示されました。
さらに、モデルのモジュール性により、空間的および時間的な複雑さの観点から既存のビデオ品質データベースを分析する素晴らしい機会が提供されます。
最後に、BVQA モデルはコスト効率が高く、ダイナミック レンジや色域などの他の品質関連のビデオ属性を追加の整流器として追加できます。

要約(オリジナル)

Blind video quality assessment (BVQA) plays a pivotal role in evaluating and improving the viewing experience of end-users across a wide range of video-based platforms and services. Contemporary deep learning-based models primarily analyze the video content in its aggressively downsampled format, while being blind to the impact of actual spatial resolution and frame rate on video quality. In this paper, we propose a modular BVQA model, and a method of training it to improve its modularity. Specifically, our model comprises a base quality predictor, a spatial rectifier, and a temporal rectifier, responding to the visual content and distortion, spatial resolution, and frame rate changes on video quality, respectively. During training, spatial and temporal rectifiers are dropped out with some probabilities so as to make the base quality predictor a standalone BVQA model, which should work better with the rectifiers. Extensive experiments on both professionally-generated content and user generated content video databases show that our quality model achieves superior or comparable performance to current methods. Furthermore, the modularity of our model offers a great opportunity to analyze existing video quality databases in terms of their spatial and temporal complexities. Last, our BVQA model is cost-effective to add other quality-relevant video attributes such as dynamic range and color gamut as additional rectifiers.

arxiv情報

著者 Wen Wen,Mu Li,Yabin Zhang,Yiting Liao,Junlin Li,Li Zhang,Kede Ma
発行日 2024-02-29 15:44:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク