要約
Self-attention ベースの Transformer は、多くのコンピュータ ビジョン タスクで大きな成功を収めています。
しかし、ビデオ品質評価 (VQA) への応用はこれまでのところ満足のいくものではありません。
自然な状態のビデオの品質を評価することは、元の状態のリファレンスや撮影時の歪みが分からないため、困難です。
この論文では、StarVQA+ と呼ばれる、VQA 問題用に共同トレーニングされた Space-Time Attendant ネットワークを紹介します。
具体的には、まず分割された時空アテンションを交互に連結することでStarVQA+を構築します。
次に、StarVQA+ のトレーニングを容易にするために、平均意見スコア (MOS) を確率ベクトルにエンコードし、特別なトークンを MOS の学習可能な変数として埋め込むことでベクトル化された回帰損失を設計し、人間の評価プロセスのより適切な適合につながります。
最後に、Transformer でデータを大量に消費する問題を解決するために、画像とビデオの両方を使用して空間的および時間的注意の重みを共同トレーニングすることを提案します。
LIVE-Qualcomm、LIVE-VQC、KoNViD-1k、YouTube-UGC、LSVQ、LSVQ-1080p、DVL2021 など、事実上の野生のビデオ データセットに対してさまざまな実験が行われています。
実験結果は、提案された StarVQA+ が最先端技術よりも優れていることを示しています。
要約(オリジナル)
Self-attention based Transformer has achieved great success in many computer vision tasks. However, its application to video quality assessment (VQA) has not been satisfactory so far. Evaluating the quality of in-the-wild videos is challenging due to the unknown of pristine reference and shooting distortion. This paper presents a co-trained Space-Time Attention network for the VQA problem, termed StarVQA+. Specifically, we first build StarVQA+ by alternately concatenating the divided space-time attention. Then, to facilitate the training of StarVQA+, we design a vectorized regression loss by encoding the mean opinion score (MOS) to the probability vector and embedding a special token as the learnable variable of MOS, leading to better fitting of human’s rating process. Finally, to solve the data hungry problem with Transformer, we propose to co-train the spatial and temporal attention weights using both images and videos. Various experiments are conducted on the de-facto in-the-wild video datasets, including LIVE-Qualcomm, LIVE-VQC, KoNViD-1k, YouTube-UGC, LSVQ, LSVQ-1080p, and DVL2021. Experimental results demonstrate the superiority of the proposed StarVQA+ over the state-of-the-art.
arxiv情報
著者 | Fengchuang Xing,Yuan-Gen Wang,Weixuan Tang,Guopu Zhu,Sam Kwong |
発行日 | 2023-06-21 14:27:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google