Decoupling Features in Hierarchical Propagation for Video Object Segmentation

要約

このホワイト ペーパーでは、半教師付きビデオ オブジェクト セグメンテーション (VOS) の階層的伝播のより効果的な方法の開発に焦点を当てています。
ビジョン トランスフォーマーに基づいて、最近開発されたトランスフォーマーによるオブジェクトの関連付け (AOT) アプローチは、VOS に階層的な伝播を導入し、有望な結果を示しています。
階層的な伝播は、過去のフレームから現在のフレームに情報を徐々に伝播し、現在のフレームの機能をオブジェクトに依存しないものからオブジェクト固有のものに移すことができます。
ただし、オブジェクト固有の情報の増加は、必然的に、深い伝播層でオブジェクトに依存しない視覚情報の損失につながります。
このような問題を解決し、視覚的埋め込みの学習をさらに容易にするために、この論文では、階層的伝播における分離機能 (DeAOT) アプローチを提案します。
まず、DeAOT は、オブジェクトに依存しない埋め込みとオブジェクト固有の埋め込みの階層的な伝播を、2 つの独立したブランチで処理することによって分離します。
第二に、二重分岐伝播からの追加の計算を補うために、階層的伝播を構築するための効率的なモジュール、つまり、シングルヘッドアテンションで慎重に設計されたゲート伝播モジュールを提案します。
広範な実験により、DeAOT は精度と効率の両方で AOT よりも大幅に優れていることが示されています。
YouTube-VOS では、DeAOT は 22.4fps で 86.0%、53.4fps で 82.0% を達成できます。
テスト時間の増強なしで、YouTube-VOS (86.2%)、DAVIS 2017 (86.2%)、DAVIS 2016 (92.9%)、および VOT 2020 (0.622) の 4 つのベンチマークで新しい最先端のパフォーマンスを達成しました。
)。
プロジェクト ページ: https://github.com/z-x-yang/AOT。

要約(オリジナル)

This paper focuses on developing a more effective method of hierarchical propagation for semi-supervised Video Object Segmentation (VOS). Based on vision transformers, the recently-developed Associating Objects with Transformers (AOT) approach introduces hierarchical propagation into VOS and has shown promising results. The hierarchical propagation can gradually propagate information from past frames to the current frame and transfer the current frame feature from object-agnostic to object-specific. However, the increase of object-specific information will inevitably lead to the loss of object-agnostic visual information in deep propagation layers. To solve such a problem and further facilitate the learning of visual embeddings, this paper proposes a Decoupling Features in Hierarchical Propagation (DeAOT) approach. Firstly, DeAOT decouples the hierarchical propagation of object-agnostic and object-specific embeddings by handling them in two independent branches. Secondly, to compensate for the additional computation from dual-branch propagation, we propose an efficient module for constructing hierarchical propagation, i.e., Gated Propagation Module, which is carefully designed with single-head attention. Extensive experiments show that DeAOT significantly outperforms AOT in both accuracy and efficiency. On YouTube-VOS, DeAOT can achieve 86.0% at 22.4fps and 82.0% at 53.4fps. Without test-time augmentations, we achieve new state-of-the-art performance on four benchmarks, i.e., YouTube-VOS (86.2%), DAVIS 2017 (86.2%), DAVIS 2016 (92.9%), and VOT 2020 (0.622). Project page: https://github.com/z-x-yang/AOT.

arxiv情報

著者 Zongxin Yang,Yi Yang
発行日 2022-10-19 07:45:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク