A Spatial-Temporal Dual-Mode Mixed Flow Network for Panoramic Video Salient Object Detection

要約

パノラマ ビデオにおける顕著物体検出 (SOD) は、まだ初期段階にあります。
パノラマ ビデオ内の顕著なオブジェクトの検出への 2D ビデオ SOD 法の間接的な適用には、検出精度の低さ、モデルの複雑さの高さ、汎化パフォーマンスの低さなど、多くの未解決の課題があります。
これらのハードルを克服するために、層間アテンション (ILA) モジュール、層間重み付け (ILW) モジュール、およびバイモーダル アテンション (BMA) モジュールを設計します。
これらのモジュールに基づいて、パノラマ ビデオの空間フローと SOD の対応するオプティカル フローを活用する時空間デュアルモード混合フロー ネットワーク (STDMMF-Net) を提案します。
まず、ILA モジュールは、パノラマ ビデオの連続フレームの隣接するレベルの特徴間の注意を計算し、空間フローから顕著なオブジェクトの特徴を抽出する精度を向上させます。
次に、ILW モジュールは、混合フローにおける各レベルの特徴の融合効率を向上させるために、各レベルの特徴に含まれる顕著なオブジェクト情報を定量化します。
最後に、BMA モジュールは STDMMF-Net の検出精度を向上させます。
多数の主観的および客観的な実験結果は、提案された方法が最先端 (SOTA) 方法よりも優れた検出精度を実証していることを証明しています。
さらに、提案された方法の総合的なパフォーマンスは、モデル推論に必要なメモリ、テスト時間、複雑さ、汎化パフォーマンスの点で優れています。

要約(オリジナル)

Salient object detection (SOD) in panoramic video is still in the initial exploration stage. The indirect application of 2D video SOD method to the detection of salient objects in panoramic video has many unmet challenges, such as low detection accuracy, high model complexity, and poor generalization performance. To overcome these hurdles, we design an Inter-Layer Attention (ILA) module, an Inter-Layer weight (ILW) module, and a Bi-Modal Attention (BMA) module. Based on these modules, we propose a Spatial-Temporal Dual-Mode Mixed Flow Network (STDMMF-Net) that exploits the spatial flow of panoramic video and the corresponding optical flow for SOD. First, the ILA module calculates the attention between adjacent level features of consecutive frames of panoramic video to improve the accuracy of extracting salient object features from the spatial flow. Then, the ILW module quantifies the salient object information contained in the features of each level to improve the fusion efficiency of the features of each level in the mixed flow. Finally, the BMA module improves the detection accuracy of STDMMF-Net. A large number of subjective and objective experimental results testify that the proposed method demonstrates better detection accuracy than the state-of-the-art (SOTA) methods. Moreover, the comprehensive performance of the proposed method is better in terms of memory required for model inference, testing time, complexity, and generalization performance.

arxiv情報

著者 Xiaolei Chen,Pengcheng Zhang,Zelong Du,Ishfaq Ahmad
発行日 2023-10-13 11:25:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク