要約
コンテンツの制作および配信中の一般的な状況により、ストリーミング ビデオ コンテンツに視覚的なアーティファクトがしばしば導入されます。
これらはユーザー エクスペリエンスの品質を低下させる可能性があるため、効果的な品質の測定と向上を可能にするためには、それらを自動的かつ正確に検出することが重要です。
既存の検出方法は、多くの場合、単一タイプのアーティファクトに焦点を当てたり、客観的な品質指標のしきい値処理を通じてアーティファクトの存在を判定したりします。
このようなアプローチは、一貫性のない予測パフォーマンスを提供することが報告されており、また、複数のアーティファクトが共存して相互作用する現実世界のアプリケーションには非現実的です。
この論文では、ビデオ品質評価モデルに依存しない単一のフレームワークを使用して初めて複数のアーティファクトを検出できる、ビデオストリーミング用のマルチビジュアルアーティファクト検出器 (MVAD) を提案します。
私たちのアプローチでは、新しいアーティファクト対応動的特徴抽出器 (ADFE) を採用して、複数のアーティファクト タイプの各フレーム内でアーティファクト関連の空間特徴を取得します。
抽出された特徴は、Recurrent Memory Vision Transformer (RMViT) モジュールによってさらに処理され、入力ビデオ内の短期と長期の両方の時間情報をキャプチャします。
提案されたネットワーク アーキテクチャは、ビデオ ストリーミング パイプラインをシミュレートすることによって生成され、Adversarial Data Augmentation に基づいて生成された、新しく大規模で多様なトレーニング データベースに基づいてエンドツーエンドの方法で最適化されます。
このモデルは、Maxwell と BVI-Artifact という 2 つのビデオ アーティファクト データベースで評価されており、7 つの既存の単一および複数のアーティファクト検出器と比較して、10 のターゲット視覚アーティファクトについて一貫した改善された予測結果が得られています。
ソース コードとトレーニング データベースは https://chenfeng-bristol.github.io/MVAD/ で入手できます。
要約(オリジナル)
Visual artifacts are often introduced into streamed video content, due to prevailing conditions during content production and delivery. Since these can degrade the quality of the user’s experience, it is important to automatically and accurately detect them in order to enable effective quality measurement and enhancement. Existing detection methods often focus on a single type of artifact and/or determine the presence of an artifact through thresholding objective quality indices. Such approaches have been reported to offer inconsistent prediction performance and are also impractical for real-world applications where multiple artifacts co-exist and interact. In this paper, we propose a Multiple Visual Artifact Detector, MVAD, for video streaming which, for the first time, is able to detect multiple artifacts using a single framework that is not reliant on video quality assessment models. Our approach employs a new Artifact-aware Dynamic Feature Extractor (ADFE) to obtain artifact-relevant spatial features within each frame for multiple artifact types. The extracted features are further processed by a Recurrent Memory Vision Transformer (RMViT) module, which captures both short-term and long-term temporal information within the input video. The proposed network architecture is optimized in an end-to-end manner based on a new, large and diverse training database that is generated by simulating the video streaming pipeline and based on Adversarial Data Augmentation. This model has been evaluated on two video artifact databases, Maxwell and BVI-Artifact, and achieves consistent and improved prediction results for ten target visual artifacts when compared to seven existing single and multiple artifact detectors. The source code and training database will be available at https://chenfeng-bristol.github.io/MVAD/.
arxiv情報
著者 | Chen Feng,Duolikun Danier,Fan Zhang,Alex Mackin,Andrew Collins,David Bull |
発行日 | 2024-12-09 18:06:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google