要約
自然界における映像の普及は、映像品質評価(VQA)の問題を大きく拡大した。通常、限定された歪みのタイプに焦点を当てた初期の定義とは異なり、様々な歪みや多様なコンテンツを含む複雑な要因の影響を受ける可能性があるため、自然動画におけるVQAは特に困難である。主観的な研究により、これらの映像の総合的な品質スコアが収集されているが、抽象的な品質スコアが特定の要素とどのように関連しているかはまだ不明であり、VQA手法がより具体的な品質評価(例えば映像の鮮明さ)を行う妨げとなっている。この問題を解決するために、我々は4,543本の実映像に対して、撮影時の歪み(モーションブラー、ノイズ、フリッカーなど)、圧縮や伝送によって生じるエラー、意味内容や美的問題(構図、カメラの軌跡など)に関する高次元の経験など、13次元の品質関連要因に関する200万件を超える意見を収集し、多次元のMaxwellデータベースを構築した。具体的には、各次元について、肯定的、否定的、中立的な選択肢の中からラベリングするよう被験者に求める。これらの説明レベルの意見により、特定の品質要素と抽象的な主観的品質評価との関係を測定し、各次元で異なるカテゴリのVQAアルゴリズムをベンチマークすることで、より包括的にその長所と短所を分析することができる。さらに、我々はMaxVQAを提案する。MaxVQAは、視覚言語基礎モデルCLIPを修正することで、我々の分析で観察された重要な品質問題をより良く捉えることができる。MaxVQAは、様々な特定の品質要素と最終的な品質スコアを共同で評価することができ、全ての次元において最先端の精度を持ち、既存のデータセットにおいて優れた汎化能力を持つ。コードとデータはhttps://github.com/VQAssessment/MaxVQA。
要約(オリジナル)
The proliferation of in-the-wild videos has greatly expanded the Video Quality Assessment (VQA) problem. Unlike early definitions that usually focus on limited distortion types, VQA on in-the-wild videos is especially challenging as it could be affected by complicated factors, including various distortions and diverse contents. Though subjective studies have collected overall quality scores for these videos, how the abstract quality scores relate with specific factors is still obscure, hindering VQA methods from more concrete quality evaluations (e.g. sharpness of a video). To solve this problem, we collect over two million opinions on 4,543 in-the-wild videos on 13 dimensions of quality-related factors, including in-capture authentic distortions (e.g. motion blur, noise, flicker), errors introduced by compression and transmission, and higher-level experiences on semantic contents and aesthetic issues (e.g. composition, camera trajectory), to establish the multi-dimensional Maxwell database. Specifically, we ask the subjects to label among a positive, a negative, and a neutral choice for each dimension. These explanation-level opinions allow us to measure the relationships between specific quality factors and abstract subjective quality ratings, and to benchmark different categories of VQA algorithms on each dimension, so as to more comprehensively analyze their strengths and weaknesses. Furthermore, we propose the MaxVQA, a language-prompted VQA approach that modifies vision-language foundation model CLIP to better capture important quality issues as observed in our analyses. The MaxVQA can jointly evaluate various specific quality factors and final quality scores with state-of-the-art accuracy on all dimensions, and superb generalization ability on existing datasets. Code and data available at https://github.com/VQAssessment/MaxVQA.
arxiv情報
著者 | Haoning Wu,Erli Zhang,Liang Liao,Chaofeng Chen,Jingwen Hou,Annan Wang,Wenxiu Sun,Qiong Yan,Weisi Lin |
発行日 | 2023-08-03 09:26:36+00:00 |
arxivサイト | arxiv_id(pdf) |