要約
長期の高解像度ビデオの急速な成長により、効率的なビデオ品質評価(VQA)が重大な課題になりました。
通常、既存の研究は、モデルパラメーターの削減と入力の再サンプリングという2つの主要な戦略を通じて、この問題に取り組んでいます。
ただし、長距離モデリング機能の要件により、軽量の畳み込みニューラルネットワーク(CNN)とトランスは、効率と高性能のバランスをとるのに苦労しています。
最近、状態空間モデル、特にMambaは有望な代替として浮上し、シーケンス長に関して線形の複雑さを提供しています。
一方、効率的なVQAは、計算コストを最小限に抑えるために長いシーケンスの再サンプリングに大きく依存していますが、現在の再サンプリング方法は、必須のセマンティック情報の保存において弱いことがよくあります。
この作業では、効率的なVQA用に設計されたMAMBAベースのモデルであるMVQAと、新しい統一されたセマンティックおよび歪みサンプリング(USDS)アプローチを提示します。
USDSは、低解像度のビデオからのセマンティックパッチサンプリングと、オリジナル解像度のビデオからの歪みパッチサンプリングを組み合わせています。
前者は意味的に密な領域をキャプチャしますが、後者は重要な歪みの詳細を保持します。
デュアル入力からの計算の増加を防ぐために、事前定義されたマスクを使用して融合メカニズムを提案し、追加の計算負担なしでセマンティック情報と品質情報の両方をキャプチャする統一されたサンプリング戦略を可能にします。
実験では、提案されたMVQAがUSDSを装備しており、最先端の方法に匹敵するパフォーマンスを達成しながら、$ 2 \ Times $と同じくらい速く、$ 1/5 $ GPUメモリを必要とすることが示されています。
要約(オリジナル)
The rapid growth of long-duration, high-definition videos has made efficient video quality assessment (VQA) a critical challenge. Existing research typically tackles this problem through two main strategies: reducing model parameters and resampling inputs. However, light-weight Convolution Neural Networks (CNN) and Transformers often struggle to balance efficiency with high performance due to the requirement of long-range modeling capabilities. Recently, the state-space model, particularly Mamba, has emerged as a promising alternative, offering linear complexity with respect to sequence length. Meanwhile, efficient VQA heavily depends on resampling long sequences to minimize computational costs, yet current resampling methods are often weak in preserving essential semantic information. In this work, we present MVQA, a Mamba-based model designed for efficient VQA along with a novel Unified Semantic and Distortion Sampling (USDS) approach. USDS combines semantic patch sampling from low-resolution videos and distortion patch sampling from original-resolution videos. The former captures semantically dense regions, while the latter retains critical distortion details. To prevent computation increase from dual inputs, we propose a fusion mechanism using pre-defined masks, enabling a unified sampling strategy that captures both semantic and quality information without additional computational burden. Experiments show that the proposed MVQA, equipped with USDS, achieve comparable performance to state-of-the-art methods while being $2\times$ as fast and requiring only $1/5$ GPU memory.
arxiv情報
著者 | Yachun Mi,Yu Li,Weicheng Meng,Chaofeng Chen,Chen Hui,Shaohui Liu |
発行日 | 2025-04-22 16:08:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google