要約
3DCNN、convLSTM、またはオプティカル フローに基づくこれまでの方法は、ビデオ顕著オブジェクト検出 (VSOD) において大きな成功を収めてきました。
ただし、依然として、計算コストが高いことや、生成される顕著性マップの品質が低いという問題があります。
これらの問題を解決するために、VSOD の時間ブランチとして隣接するフレームから現在のフレームの有用な時間情報を抽出する時空メモリ (STM) ベースのネットワークを設計します。
さらに、以前の方法では、時間的な関連性を持たない単一フレームの予測のみが考慮されていました。
その結果、モデルは時間情報に十分に焦点を当てていない可能性があります。
したがって、最初にフレーム間オブジェクトの動き予測を VSOD に導入します。
私たちのモデルは、標準のエンコーダとデコーダのアーキテクチャに従っています。
符号化段階では、現在のフレームとその隣接フレームからの高レベルの特徴を使用して、高レベルの時間特徴を生成します。
このアプローチは、オプティカル フロー ベースの方法よりも効率的です。
復号段階では、空間分岐と時間分岐の効果的な融合戦略を提案します。
高レベルの特徴の意味情報を使用して、低レベルの特徴のオブジェクトの詳細を融合し、時空間特徴を段階的に取得して顕著性マップを再構築します。
さらに、画像顕著オブジェクト検出 (ISOD) で一般的に使用される境界監視にヒントを得て、オブジェクト境界の動きを予測するための動きを意識した損失を設計し、同時に VSOD とオブジェクトの動き予測のマルチタスク学習を実行します。これにより、モデルの抽出がさらに容易になります。
時空間特徴を正確に認識し、オブジェクトの完全性を維持します。
いくつかのデータセットに対する広範な実験により、私たちの方法の有効性が実証され、一部のデータセットでは最先端のメトリクスを達成できることが実証されました。
提案されたモデルはオプティカル フローやその他の前処理を必要とせず、推論中にほぼ 100 FPS の速度に達します。
要約(オリジナル)
Previous methods based on 3DCNN, convLSTM, or optical flow have achieved great success in video salient object detection (VSOD). However, they still suffer from high computational costs or poor quality of the generated saliency maps. To solve these problems, we design a space-time memory (STM)-based network, which extracts useful temporal information of the current frame from adjacent frames as the temporal branch of VSOD. Furthermore, previous methods only considered single-frame prediction without temporal association. As a result, the model may not focus on the temporal information sufficiently. Thus, we initially introduce object motion prediction between inter-frame into VSOD. Our model follows standard encoder–decoder architecture. In the encoding stage, we generate high-level temporal features by using high-level features from the current and its adjacent frames. This approach is more efficient than the optical flow-based methods. In the decoding stage, we propose an effective fusion strategy for spatial and temporal branches. The semantic information of the high-level features is used to fuse the object details in the low-level features, and then the spatiotemporal features are obtained step by step to reconstruct the saliency maps. Moreover, inspired by the boundary supervision commonly used in image salient object detection (ISOD), we design a motion-aware loss for predicting object boundary motion and simultaneously perform multitask learning for VSOD and object motion prediction, which can further facilitate the model to extract spatiotemporal features accurately and maintain the object integrity. Extensive experiments on several datasets demonstrated the effectiveness of our method and can achieve state-of-the-art metrics on some datasets. The proposed model does not require optical flow or other preprocessing, and can reach a speed of nearly 100 FPS during inference.
arxiv情報
著者 | Xing Zhao,Haoran Liang,Peipei Li,Guodao Sun,Dongdong Zhao,Ronghua Liang,Xiaofei He |
発行日 | 2023-12-31 07:43:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google