要約
ビデオ品質評価(VQA)は、カメラキャプチャシステムからオーバーザトップストリーミングプラットフォームに至るまで、さまざまなビデオ処理ワークフローの知覚品質を定量化するために不可欠です。
最近の監視されたVQAモデルは大幅に進歩していますが、手動で注釈付きのデータセット(労働集約的で費用がかかり、スケールアップが困難なプロセスへの依存が、目に見えないビデオコンテンツと歪みに対する一般化のさらなる最適化を妨げています。
このギャップを埋めるために、VQAの自己監視学習フレームワークを紹介して、大規模でラベルの付いたWebビデオから品質評価機能を学習します。
私たちのアプローチは、a \ textBf {ランキングの学習}パラダイムを活用して、既存のVQAモデルによる高品質の擬似標識や合成歪みシミュレーションに基づく相対的な品質ランキングを含む、2つのマナーで自動的にラベル付けされたビデオペアで大きなマルチモーダルモデル(LMM)をトレーニングします。
さらに、新しい\ textBf {反復的自己改善トレーニング戦略}を紹介します。ここでは、トレーニングされたモデルが改良されたアノテーターを使用して、トレーニングデータの注釈の品質を繰り返し改善します。
既存のVQAベンチマークよりも10 \ Times $のデータセットでトレーニングすることにより、我々のモデル:(1)ドメイン内のVQAベンチマークでゼロショットパフォーマンスを達成し、監視されたモデルと一致または上回る。
(2)多様なビデオコンテンツと歪みにわたる優れた分散(OOD)一般化を示します。
(3)人間に標識されたデータセットで微調整されたときに、新しい最先端を設定します。
広範な実験結果は、一般化されたVQAモデルのトレーニングにおける自己監視アプローチの有効性を検証します。
データセットとコードは、将来の研究を促進するために公開されます。
要約(オリジナル)
Video quality assessment (VQA) is essential for quantifying perceptual quality in various video processing workflows, spanning from camera capture systems to over-the-top streaming platforms. While recent supervised VQA models have made substantial progress, the reliance on manually annotated datasets — a process that is labor-intensive, costly, and difficult to scale up — has hindered further optimization of their generalization to unseen video content and distortions. To bridge this gap, we introduce a self-supervised learning framework for VQA to learn quality assessment capabilities from large-scale, unlabeled web videos. Our approach leverages a \textbf{learning-to-rank} paradigm to train a large multimodal model (LMM) on video pairs automatically labeled via two manners, including quality pseudo-labeling by existing VQA models and relative quality ranking based on synthetic distortion simulations. Furthermore, we introduce a novel \textbf{iterative self-improvement training strategy}, where the trained model acts an improved annotator to iteratively refine the annotation quality of training data. By training on a dataset $10\times$ larger than the existing VQA benchmarks, our model: (1) achieves zero-shot performance on in-domain VQA benchmarks that matches or surpasses supervised models; (2) demonstrates superior out-of-distribution (OOD) generalization across diverse video content and distortions; and (3) sets a new state-of-the-art when fine-tuned on human-labeled datasets. Extensive experimental results validate the effectiveness of our self-supervised approach in training generalized VQA models. The datasets and code will be publicly released to facilitate future research.
arxiv情報
著者 | Linhan Cao,Wei Sun,Kaiwei Zhang,Yicong Peng,Guangtao Zhai,Xiongkuo Min |
発行日 | 2025-05-06 15:29:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google