Zoom-VQA: Patches, Frames and Clips Integration for Video Quality Assessment



– ビデオ品質評価は、低レベルの色やテクスチャの詳細から高レベルの意味的コンテンツまでの要因によって影響を受ける人間のビデオ品質の知覚をシミュレートすることを目的としている。
– この論文では、ビデオをパッチレベル、フレームレベル、クリップレベルの3つのレベルに分解し、異なるレベルの空間的・時間的特徴を知覚するために、新しいZoom-VQAアーキテクチャを提案している。
– Zoom-VQAには、空間次元の関心領域を捕捉するためのパッチ注意モジュール、異なる特徴レベルでのマルチレベル情報を整列するためのフレームピラミッドアラインメント、時間次元に分散した歪みを捕捉するためのクリップアンサンブル戦略の3つのコンポーネントが統合されている。
– ベンチマークを4つ完了し、NTIRE 2023 VQAチャレンジで2位を獲得した。
– Zoom-VQAは、LSVQの2つのサブセットで以前の最高結果を上回り、それぞれSRCCで0.8860(+1.0%)と0.7985(+1.9%)を達成している。足りない部分研究は、各コンポーネントの有効性をさらに検証している。 GitHub(https://github.com/k-zha14 / Zoom-VQA)でコードとモデルを公開します。


Video quality assessment (VQA) aims to simulate the human perception of video quality, which is influenced by factors ranging from low-level color and texture details to high-level semantic content. To effectively model these complicated quality-related factors, in this paper, we decompose video into three levels (\ie, patch level, frame level, and clip level), and propose a novel Zoom-VQA architecture to perceive spatio-temporal features at different levels. It integrates three components: patch attention module, frame pyramid alignment, and clip ensemble strategy, respectively for capturing region-of-interest in the spatial dimension, multi-level information at different feature levels, and distortions distributed over the temporal dimension. Owing to the comprehensive design, Zoom-VQA obtains state-of-the-art results on four VQA benchmarks and achieves 2nd place in the NTIRE 2023 VQA challenge. Notably, Zoom-VQA has outperformed the previous best results on two subsets of LSVQ, achieving 0.8860 (+1.0%) and 0.7985 (+1.9%) of SRCC on the respective subsets. Adequate ablation studies further verify the effectiveness of each component. Codes and models are released in https://github.com/k-zha14/Zoom-VQA.


著者 Kai Zhao,Kun Yuan,Ming Sun,Xing Wen
発行日 2023-04-13 12:18:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク