Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation

要約

この論文では、自己教師ありビデオ オブジェクト セグメンテーション (VOS) のためのシンプルかつ効果的なアプローチを提案します。
私たちの重要な洞察は、DINO で事前トレーニングされた Transformer に存在する固有の構造的依存関係を活用して、ビデオ内で堅牢な時空間対応を確立できるということです。
さらに、この対応キューに関する単純なクラスタリングは、競合するセグメンテーション結果を得るのに十分です。
以前の自己監視型 VOS 技術は、オブジェクトの発見を支援するために主に補助的なモダリティに頼ったり、反復スロット アテンションを利用したりするため、一般的な適用性が制限され、より高い計算要件が課せられます。
これらの課題に対処するために、追加のモダリティやスロット アテンションの必要性を回避し、DINO で事前トレーニングされたトランスフォーマーから新たに出現したオブジェクト性を利用する簡素化されたアーキテクチャを開発します。
具体的には、最初に単一の時空間 Transformer ブロックを導入して、フレーム単位の DINO 特徴を処理し、自己注意の形で時空間依存関係を確立します。
続いて、これらのアテンション マップを利用して階層的クラスタリングを実装し、オブジェクト セグメンテーション マスクを生成します。
完全に自己監視された方法で時空間ブロックをトレーニングするために、エントロピーの正規化と組み合わせたセマンティックおよび動的モーションの一貫性を採用します。
私たちの手法は、複数の教師なし VOS ベンチマークにわたって最先端のパフォーマンスを実証し、特に DAVIS-17-Unsupervised や YouTube-VIS-19 などの複雑な現実世界のマルチオブジェクト ビデオ セグメンテーション タスクで優れています。
コードとモデルのチェックポイントは https://github.com/shvdiwnkozbw/SSL-UVOS でリリースされます。

要約(オリジナル)

In this paper, we propose a simple yet effective approach for self-supervised video object segmentation (VOS). Our key insight is that the inherent structural dependencies present in DINO-pretrained Transformers can be leveraged to establish robust spatio-temporal correspondences in videos. Furthermore, simple clustering on this correspondence cue is sufficient to yield competitive segmentation results. Previous self-supervised VOS techniques majorly resort to auxiliary modalities or utilize iterative slot attention to assist in object discovery, which restricts their general applicability and imposes higher computational requirements. To deal with these challenges, we develop a simplified architecture that capitalizes on the emerging objectness from DINO-pretrained Transformers, bypassing the need for additional modalities or slot attention. Specifically, we first introduce a single spatio-temporal Transformer block to process the frame-wise DINO features and establish spatio-temporal dependencies in the form of self-attention. Subsequently, utilizing these attention maps, we implement hierarchical clustering to generate object segmentation masks. To train the spatio-temporal block in a fully self-supervised manner, we employ semantic and dynamic motion consistency coupled with entropy normalization. Our method demonstrates state-of-the-art performance across multiple unsupervised VOS benchmarks and particularly excels in complex real-world multi-object video segmentation tasks such as DAVIS-17-Unsupervised and YouTube-VIS-19. The code and model checkpoints will be released at https://github.com/shvdiwnkozbw/SSL-UVOS.

arxiv情報

著者 Shuangrui Ding,Rui Qian,Haohang Xu,Dahua Lin,Hongkai Xiong
発行日 2023-11-29 18:47:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク