要約
この論文では、フレーム内相互作用を強化することにより、半教師付きビデオ オブジェクト セグメンテーションを研究します。
最近のメモリネットワークベースの方法は、フレーム内の空間的依存性にはほとんど注意を払わずに、フレーム間の時間参照を活用することに重点を置いています。
具体的には、これらのセグメンテーション モデルは、特定のフレーム内の無関係な非ターゲット オブジェクトからの干渉を受けやすい傾向があります。
この目的のために、スペクトル領域での長期的な空間依存性を学習することにより、フレーム内相互作用を改善するグローバル スペクトル フィルター メモリ ネットワーク (GSFM) を提案します。
GSFM の主要コンポーネントは、空間情報混合のための 2D (逆) 離散フーリエ変換です。
さらに、エンコーダー(バックボーン)では低周波機能を強化し、デコーダー(セグメンテーションヘッド)では高周波機能を強化する必要があることが経験的にわかっています。
これは、エンコーダーの役割を抽出するセマンティック情報と、デコーダーの役割を強調するきめ細かい詳細に起因すると考えられます。
したがって、この状況に適合するように低(高)周波数モジュールが提案されています。
一般的な DAVIS および YouTube-VOS ベンチマークでの広範な実験により、GSFM がベースライン メソッドよりも著しく優れており、最先端のパフォーマンスを達成することが実証されています。
さらに、広範な分析により、提案されたモジュールが合理的であり、優れた一般化能力を備えていることが示されています。
ソース コードは https://github.com/workforai/GSFM で入手できます。
要約(オリジナル)
This paper studies semi-supervised video object segmentation through boosting intra-frame interaction. Recent memory network-based methods focus on exploiting inter-frame temporal reference while paying little attention to intra-frame spatial dependency. Specifically, these segmentation model tends to be susceptible to interference from unrelated nontarget objects in a certain frame. To this end, we propose Global Spectral Filter Memory network (GSFM), which improves intra-frame interaction through learning long-term spatial dependencies in the spectral domain. The key components of GSFM is 2D (inverse) discrete Fourier transform for spatial information mixing. Besides, we empirically find low frequency feature should be enhanced in encoder (backbone) while high frequency for decoder (segmentation head). We attribute this to semantic information extracting role for encoder and fine-grained details highlighting role for decoder. Thus, Low (High) Frequency Module is proposed to fit this circumstance. Extensive experiments on the popular DAVIS and YouTube-VOS benchmarks demonstrate that GSFM noticeably outperforms the baseline method and achieves state-of-the-art performance. Besides, extensive analysis shows that the proposed modules are reasonable and of great generalization ability. Our source code is available at https://github.com/workforai/GSFM.
arxiv情報
著者 | Yong Liu,Ran Yu,Jiahao Wang,Xinyuan Zhao,Yitong Wang,Yansong Tang,Yujiu Yang |
発行日 | 2022-10-11 16:02:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google