Capturing Co-existing Distortions in User-Generated Content for No-reference Video Quality Assessment

要約

ビデオの知覚品質を予測することを目的としたビデオ品質評価 (VQA) は、Facebook、TikTok、Kwai などのストリーミング メディア テクノロジーの急速な発展に伴い注目を集めています。
他のシーケンスベースの視覚タスク (\textit{例} アクション認識) と比較して、VQA はユーザー生成コンテンツ (UGC) ビデオで未解決の過小評価されている 2 つの課題に直面しています。
\textit{第一}、深刻な歪み (\textit{例}ブロッキング、ぼやけ) を含むいくつかのフレームがビデオ全体の知覚品質を決定する可能性があることは珍しいことではありませんが、他のシーケンスベースのタスクでは同じ重要性のより多くのフレームが必要です
表現のために。
\textit{Second}、ビデオの知覚品質は、さまざまな歪みの持続時間と発生確率の違いにより、多重歪み分布を示します。
上記の課題を解決するために、品質関連のスパース特徴をより効率的に抽出する \textit{Visual Quality Transformer (VQT)} を提案します。
方法論的には、フレーム間の時間的相関を分析することによってキーフレームをサンプリングする Sparse Temporal Attendant (STA) が提案されており、これにより計算量が $O(T^2)$ から $O(T \log T)$ に軽減されます。
構造的には、マルチパスウェイ テンポラル ネットワーク (MPTN) は、異なる度合いのスパース性を持つ複数の STA モジュールを並行して利用し、ビデオ内に共存する歪みをキャプチャします。
実験的に、VQT は 3 つの公開された参照なし VQA データセットで多くの \textit{最先端} メソッドよりも優れたパフォーマンスを示しました。
さらに、VQT は、広く採用されている産業用アルゴリズム (\textit{つまり、} VMAF および AVQT) に対して 4 つの完全参照 VQA データセットで優れたパフォーマンスを示します。

要約(オリジナル)

Video Quality Assessment (VQA), which aims to predict the perceptual quality of a video, has attracted raising attention with the rapid development of streaming media technology, such as Facebook, TikTok, Kwai, and so on. Compared with other sequence-based visual tasks (\textit{e.g.,} action recognition), VQA faces two under-estimated challenges unresolved in User Generated Content (UGC) videos. \textit{First}, it is not rare that several frames containing serious distortions (\textit{e.g.,}blocking, blurriness), can determine the perceptual quality of the whole video, while other sequence-based tasks require more frames of equal importance for representations. \textit{Second}, the perceptual quality of a video exhibits a multi-distortion distribution, due to the differences in the duration and probability of occurrence for various distortions. In order to solve the above challenges, we propose \textit{Visual Quality Transformer (VQT)} to extract quality-related sparse features more efficiently. Methodologically, a Sparse Temporal Attention (STA) is proposed to sample keyframes by analyzing the temporal correlation between frames, which reduces the computational complexity from $O(T^2)$ to $O(T \log T)$. Structurally, a Multi-Pathway Temporal Network (MPTN) utilizes multiple STA modules with different degrees of sparsity in parallel, capturing co-existing distortions in a video. Experimentally, VQT demonstrates superior performance than many \textit{state-of-the-art} methods in three public no-reference VQA datasets. Furthermore, VQT shows better performance in four full-reference VQA datasets against widely-adopted industrial algorithms (\textit{i.e.,} VMAF and AVQT).

arxiv情報

著者 Kun Yuan,Zishang Kong,Chuanchuan Zheng,Ming Sun,Xing Wen
発行日 2023-07-31 16:29:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク