VS-Net: Multiscale Spatiotemporal Features for Lightweight Video Salient Document Detection

要約

ビデオ重要ドキュメント検出 (VSDD) は、ビデオ フレーム内の視覚的に重要なドキュメント領域を強調することを目的とした、実用的なコンピューター ビジョンの重要なタスクです。
VSDD の以前の手法は、外観とモーションの手がかりの間および全体の連携を考慮せずに学習機能に焦点を当てているため、実際のシナリオでは実行できません。
さらに、以前の手法のほとんどは高い計算リソースを必要とするため、リソースに制約のある設定でのこのようなシステムの使用は制限されます。
これらの問題を処理するために、拡張された深さ方向の分離可能な畳み込みと近似ランク プーリングの助けを借りて、マルチスケールの時空間情報をキャプチャする VS-Net を提案します。
VS-Net は、埋め込みサブスペース全体で各フレームから主要な機能をローカルに抽出し、隣接ノードと並列ノード間で機能を転送して、モデルのパフォーマンスをグローバルに強化します。
私たちのモデルは、背景と前景の両方を同時に考慮して顕著性マップを生成し、困難なシナリオでのパフォーマンスを向上させます。
ベンチマーク MIDV-500 データセットで規制された膨大な実験は、VS-Net モデルが時間と堅牢性の両方の測定において最先端のアプローチよりも優れていることを示しています。

要約(オリジナル)

Video Salient Document Detection (VSDD) is an essential task of practical computer vision, which aims to highlight visually salient document regions in video frames. Previous techniques for VSDD focus on learning features without considering the cooperation among and across the appearance and motion cues and thus fail to perform in practical scenarios. Moreover, most of the previous techniques demand high computational resources, which limits the usage of such systems in resource-constrained settings. To handle these issues, we propose VS-Net, which captures multi-scale spatiotemporal information with the help of dilated depth-wise separable convolution and Approximation Rank Pooling. VS-Net extracts the key features locally from each frame across embedding sub-spaces and forwards the features between adjacent and parallel nodes, enhancing model performance globally. Our model generates saliency maps considering both the background and foreground simultaneously, making it perform better in challenging scenarios. The immense experiments regulated on the benchmark MIDV-500 dataset show that the VS-Net model outperforms state-of-the-art approaches in both time and robustness measures.

arxiv情報

著者 Hemraj Singh,Mridula Verma,Ramalingaswamy Cheruku
発行日 2023-01-11 13:07:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク