要約
このペーパーでは、ソーシャル メディア ビデオのブラインド ビデオ品質評価 (BVQA) モデルを強化するためのシンプルだが効果的な方法を紹介します。
BVQA の特徴表現としてさまざまなコンピューター ビジョン モデルから抽出された事前トレーニングされた特徴を活用する以前の研究に動機付けられ、事前トレーニングされたブラインド画質評価 (BIQA) と BVQA モデルからの豊富な品質認識機能を補助機能としてさらに探索します。
BVQA モデルは、ソーシャル メディア ビデオの複雑な歪みと多様なコンテンツを処理します。
具体的には、トレーニング可能な Swin Transformer-B と固定 SlowFast で構成される BVQA モデルである SimpleVQA をベース モデルとして使用します。
Swin Transformer-B コンポーネントと SlowFast コンポーネントは、それぞれ空間特徴と動き特徴の抽出を担当します。
次に、Q-Align、LIQE、および FAST-VQA から 3 種類の特徴を抽出して、それぞれフレームレベルの品質を意識した特徴、フレームレベルの品質とシーン固有の特徴、および時空間品質を意識した特徴をキャプチャします。
。
これらの機能を連結することにより、多層パーセプトロン (MLP) ネットワークを使用して、それらの機能を品質スコアに回帰します。
実験結果は、提案されたモデルが 3 つの公開ソーシャル メディア VQA データセットで最高のパフォーマンスを達成することを示しています。
さらに、提案されたモデルは、CVPR NTIRE 2024 ショートフォーム UGC ビデオ品質評価チャレンジで 1 位を獲得しました。
コードは \url{https://github.com/sunwei925/RQ-VQA.git} で入手できます。
要約(オリジナル)
In this paper, we present a simple but effective method to enhance blind video quality assessment (BVQA) models for social media videos. Motivated by previous researches that leverage pre-trained features extracted from various computer vision models as the feature representation for BVQA, we further explore rich quality-aware features from pre-trained blind image quality assessment (BIQA) and BVQA models as auxiliary features to help the BVQA model to handle complex distortions and diverse content of social media videos. Specifically, we use SimpleVQA, a BVQA model that consists of a trainable Swin Transformer-B and a fixed SlowFast, as our base model. The Swin Transformer-B and SlowFast components are responsible for extracting spatial and motion features, respectively. Then, we extract three kinds of features from Q-Align, LIQE, and FAST-VQA to capture frame-level quality-aware features, frame-level quality-aware along with scene-specific features, and spatiotemporal quality-aware features, respectively. Through concatenating these features, we employ a multi-layer perceptron (MLP) network to regress them into quality scores. Experimental results demonstrate that the proposed model achieves the best performance on three public social media VQA datasets. Moreover, the proposed model won first place in the CVPR NTIRE 2024 Short-form UGC Video Quality Assessment Challenge. The code is available at \url{https://github.com/sunwei925/RQ-VQA.git}.
arxiv情報
著者 | Wei Sun,Haoning Wu,Zicheng Zhang,Jun Jia,Zhichao Zhang,Linhan Cao,Qiubo Chen,Xiongkuo Min,Weisi Lin,Guangtao Zhai |
発行日 | 2024-05-14 16:32:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google