要約
ビジョン トランスフォーマーは、多くのコンピューター ビジョン タスクの強力なツールとして登場しました。
それらの機能とクラス トークンは、顕著なオブジェクトのセグメンテーションに使用できることが示されています。
ただし、セグメンテーション トランスフォーマーの特性はほとんど研究されていないままです。
この作業では、セマンティック セグメンテーション トランスフォーマーのさまざまなバックボーン レイヤーの空間的注意の詳細な研究を行い、興味深い特性を明らかにします。
オブジェクトと交差するパッチの空間的注意は、オブジェクト内に集中する傾向がありますが、より大きく、より均一な画像領域の注意は、むしろ拡散的な動作に従います。
言い換えれば、固定されたオブジェクト クラスのセットをセグメント化するように訓練されたビジョン トランスフォーマーは、このセットをはるかに超えたオブジェクトに一般化されます。
これを利用して、交通シーンの障害物など、さまざまな背景内の未知のオブジェクトをセグメント化するために使用できるヒートマップを抽出します。
私たちの方法はトレーニング不要で、その計算オーバーヘッドはごくわずかです。
ストリート シーンのセグメンテーション用にトレーニングされた市販のトランスフォーマーを使用して、他のシーン タイプを処理します。
要約(オリジナル)
Vision transformers have emerged as powerful tools for many computer vision tasks. It has been shown that their features and class tokens can be used for salient object segmentation. However, the properties of segmentation transformers remain largely unstudied. In this work we conduct an in-depth study of the spatial attentions of different backbone layers of semantic segmentation transformers and uncover interesting properties. The spatial attentions of a patch intersecting with an object tend to concentrate within the object, whereas the attentions of larger, more uniform image areas rather follow a diffusive behavior. In other words, vision transformers trained to segment a fixed set of object classes generalize to objects well beyond this set. We exploit this by extracting heatmaps that can be used to segment unknown objects within diverse backgrounds, such as obstacles in traffic scenes. Our method is training-free and its computational overhead negligible. We use off-the-shelf transformers trained for street-scene segmentation to process other scene types.
arxiv情報
著者 | Krzysztof Lis,Matthias Rottmann,Sina Honari,Pascal Fua,Mathieu Salzmann |
発行日 | 2022-12-29 18:07:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google