Differentiable Soft-Masked Attention

要約

トランスフォーマーは、その性能と複雑な操作をモデル化する柔軟性から、コンピュータビジョンに広く普及している。特に重要なのは「交差注意」操作であり、任意の大きさの入力特徴の集合に注意を払うことでベクトル表現(例えば画像中の物体)を学習することが可能である。最近、「マスクされた注意」が提案され、与えられたオブジェクト表現は、そのオブジェクトのセグメンテーションマスクがアクティブである画像ピクセル特徴にのみ注意を向けるようになった。この特殊化された注意は、様々な画像やビデオのセグメンテーションタスクに有効であることが証明された。本論文では、「ソフトマスク」(2値ではなく連続したマスク確率を持つもの)に対する注意を可能にする別の注意の特化を提案し、またこれらのマスク確率を通して微分可能であるため、注意に用いるマスクを直接損失監視を必要とせずにネットワーク内で学習することを可能にする。このことは、いくつかのアプリケーションに有用である。具体的には、弱教師付きビデオオブジェクトセグメンテーション(VOS)のタスクに我々の「微分可能なソフトマスク注意」を採用し、学習に1つの注釈付き画像フレームしか必要としないVOS用の変換器ベースのネットワークを開発したが、1つの注釈付きフレームだけのビデオに対するサイクル一貫性学習からも利益を得ることができる。ラベルのないフレームではマスクの損失はないが、我々の新しい注意の定式化により、ネットワークはそれらのフレームでオブジェクトをセグメント化することが可能である。コード: https://github.com/Ali2500/HODOR/blob/main/hodor/modelling/encoder/soft_masked_attention.py

要約(オリジナル)

Transformers have become prevalent in computer vision due to their performance and flexibility in modelling complex operations. Of particular significance is the ‘cross-attention’ operation, which allows a vector representation (e.g. of an object in an image) to be learned by attending to an arbitrarily sized set of input features. Recently, ‘Masked Attention’ was proposed in which a given object representation only attends to those image pixel features for which the segmentation mask of that object is active. This specialization of attention proved beneficial for various image and video segmentation tasks. In this paper, we propose another specialization of attention which enables attending over `soft-masks’ (those with continuous mask probabilities instead of binary values), and is also differentiable through these mask probabilities, thus allowing the mask used for attention to be learned within the network without requiring direct loss supervision. This can be useful for several applications. Specifically, we employ our ‘Differentiable Soft-Masked Attention’ for the task of Weakly-Supervised Video Object Segmentation (VOS), where we develop a transformer-based network for VOS which only requires a single annotated image frame for training, but can also benefit from cycle consistency training on a video with just one annotated frame. Although there is no loss for masks in unlabeled frames, the network is still able to segment objects in those frames due to our novel attention formulation. Code: https://github.com/Ali2500/HODOR/blob/main/hodor/modelling/encoder/soft_masked_attention.py

arxiv情報

著者 Ali Athar,Jonathon Luiten,Alexander Hermans,Deva Ramanan,Bastian Leibe
発行日 2022-08-05 14:09:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, I.4.6 パーマリンク