Guided Slot Attention for Unsupervised Video Object Segmentation

要約

教師なしビデオ オブジェクトのセグメンテーションは、ビデオ シーケンス内で最も目立つオブジェクトをセグメント化することを目的としています。
ただし、複雑な背景と複数の前景オブジェクトが存在するため、この作業は困難になります。
この問題に対処するために、空間構造情報を強化し、より良好な前景と背景の分離を得るために、ガイド付きスロット アテンション ネットワークを提案します。
クエリ ガイダンスによって初期化される前景スロットと背景スロットは、テンプレート情報との対話に基づいて繰り返し調整されます。
さらに、スロットとテンプレートの相互作用を改善し、ターゲット フレームと参照フレーム内のグローバルな特徴とローカルな特徴を効果的に融合するために、K 最近傍フィルタリングと特徴集約トランスフォーマーが導入されています。
提案されたモデルは、2 つの一般的なデータセットで最先端のパフォーマンスを実現します。
さらに、さまざまな比較実験を通じて、困難なシーンにおける提案モデルの堅牢性を実証します。

要約(オリジナル)

Unsupervised video object segmentation aims to segment the most prominent object in a video sequence. However, the existence of complex backgrounds and multiple foreground objects make this task challenging. To address this issue, we propose a guided slot attention network to reinforce spatial structural information and obtain better foreground–background separation. The foreground and background slots, which are initialized with query guidance, are iteratively refined based on interactions with template information. Furthermore, to improve slot–template interaction and effectively fuse global and local features in the target and reference frames, K-nearest neighbors filtering and a feature aggregation transformer are introduced. The proposed model achieves state-of-the-art performance on two popular datasets. Additionally, we demonstrate the robustness of the proposed model in challenging scenes through various comparative experiments.

arxiv情報

著者 Minhyeok Lee,Suhwan Cho,Dogyoon Lee,Chaewon Park,Jungho Lee,Sangyoun Lee
発行日 2024-03-31 04:11:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク