FAST-VQA: Efficient End-to-end Video Quality Assessment with Fragment Sampling

要約

現在のディープビデオ品質評価 (VQA) 手法は、高解像度ビデオを評価する際に高い計算コストがかかるのが普通である。このコストは、エンドツーエンドのトレーニングを介してより良いビデオ品質関連の表現を学習することを妨げます。既存のアプローチは通常、リサイズやトリミングなど、計算コストを削減するためのナイーブサンプリングを考慮する。しかし、これらは明らかに映像の品質関連情報を破損しており、VQAのための優れた表現を学習するためには最適とは言えない。そのため、VQAのための新しい品質保持型サンプリング方式を設計することが切望されている。本論文では,Grid Mini-patch Sampling (GMS) を提案する.GMSは,パッチを生の解像度でサンプリングすることで局所品質を考慮し,均一なグリッドでサンプリングしたミニパッチによって文脈関係で大域品質をカバーするものである.これらのミニパッチはスプライシングされ、時間的に整列され、フラグメントと名付けられる。さらに、フラグメントを入力とするために特別に設計されたフラグメントアテンションネットワーク(FANet)を構築する。フラグメントとFANetからなる提案のFAST-VQA(FrAgment Sample Transformer for VQA)は、効率的なエンドツーエンドの深層VQAを可能にし、効果的な映像品質関連表現を学習する。1080Pの高解像度映像において、99.5%のFLOPsを削減しながら、最先端の精度を約10%向上させます。また、新たに学習した映像品質関連表現は、より小さなVQAデータセットに転送することができ、これらのシナリオでの性能を向上させることができます。広範な実験により、FAST-VQAは様々な解像度の入力に対して、高い効率を維持しながら良好な性能を発揮することが示されています。我々のコードは https://github.com/timothyhtimothy/FAST-VQA で公開されている。

要約(オリジナル)

Current deep video quality assessment (VQA) methods are usually with high computational costs when evaluating high-resolution videos. This cost hinders them from learning better video-quality-related representations via end-to-end training. Existing approaches typically consider naive sampling to reduce the computational cost, such as resizing and cropping. However, they obviously corrupt quality-related information in videos and are thus not optimal for learning good representations for VQA. Therefore, there is an eager need to design a new quality-retained sampling scheme for VQA. In this paper, we propose Grid Mini-patch Sampling (GMS), which allows consideration of local quality by sampling patches at their raw resolution and covers global quality with contextual relations via mini-patches sampled in uniform grids. These mini-patches are spliced and aligned temporally, named as fragments. We further build the Fragment Attention Network (FANet) specially designed to accommodate fragments as inputs. Consisting of fragments and FANet, the proposed FrAgment Sample Transformer for VQA (FAST-VQA) enables efficient end-to-end deep VQA and learns effective video-quality-related representations. It improves state-of-the-art accuracy by around 10% while reducing 99.5% FLOPs on 1080P high-resolution videos. The newly learned video-quality-related representations can also be transferred into smaller VQA datasets, boosting performance in these scenarios. Extensive experiments show that FAST-VQA has good performance on inputs of various resolutions while retaining high efficiency. We publish our code at https://github.com/timothyhtimothy/FAST-VQA.

arxiv情報

著者 Haoning Wu,Chaofeng Chen,Jingwen Hou,Liang Liao,Annan Wang,Wenxiu Sun,Qiong Yan,Weisi Lin
発行日 2022-07-06 11:11:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.MM パーマリンク