要約
深さは、顕著なオブジェクト検出(SOD)に役立つ地理的手がかりを提供でき、最近のRGB-DSODメソッドで役立つことが証明されています。
ただし、既存のビデオ顕著なオブジェクト検出(VSOD)メソッドは、時空間情報のみを利用し、検出のために深度情報を利用することはめったにありません。
本論文では、VSODを支援するために深度情報を組み込む先駆的な研究であるVSODのためのDCTNetと呼ばれる深度協調三峰性ネットワークを提案する。
この目的のために、最初にRGBフレームから深度を生成し、次に3つのモダリティを不均等に処理するアプローチを提案します。
具体的には、マルチモーダルアテンションモジュール(MAM)は、メインモダリティ(RGB)と2つの補助モダリティ(深度、オプティカルフロー)間のマルチモーダル長距離依存関係をモデル化するように設計されています。
また、各モダリティのノイズを抑制し、さらに機能を改良するために有用な情報を動的に選択するための改良融合モジュール(RFM)を紹介します。
最後に、最終的なクロスモーダル融合を実現するために、洗練された機能の後にプログレッシブ融合戦略が採用されています。
5つのベンチマークデータセットでの実験は、12の最先端の方法に対する深度協調モデルの優位性を示しており、深度の必要性も検証されています。
要約(オリジナル)
Depth can provide useful geographical cues for salient object detection (SOD), and has been proven helpful in recent RGB-D SOD methods. However, existing video salient object detection (VSOD) methods only utilize spatiotemporal information and seldom exploit depth information for detection. In this paper, we propose a depth-cooperated trimodal network, called DCTNet for VSOD, which is a pioneering work to incorporate depth information to assist VSOD. To this end, we first generate depth from RGB frames, and then propose an approach to treat the three modalities unequally. Specifically, a multi-modal attention module (MAM) is designed to model multi-modal long-range dependencies between the main modality (RGB) and the two auxiliary modalities (depth, optical flow). We also introduce a refinement fusion module (RFM) to suppress noises in each modality and select useful information dynamically for further feature refinement. Lastly, a progressive fusion strategy is adopted after the refined features to achieve final cross-modal fusion. Experiments on five benchmark datasets demonstrate the superiority of our depth-cooperated model against 12 state-of-the-art methods, and the necessity of depth is also validated.
arxiv情報
著者 | Yukang Lu,Dingyao Min,Keren Fu,Qijun Zhao |
発行日 | 2022-07-11 11:52:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google