要約
一連の画像が与えられた場合、共顕著物体検出 (CoSOD) は、各画像内の共通の顕著な物体を強調表示することを目的としています。
このタスクの成功には 2 つの要素が密接に関係しています。それは、コンセンサス抽出と各画像へのコンセンサスの分散です。
これまでの研究のほとんどは、ローカル特徴を使用してグループの合意を表していましたが、代わりに、意味レベルの合意を抽出するために階層的な Transformer モジュールを利用しました。
したがって、共通のオブジェクト カテゴリのより包括的な表現を取得し、ターゲット オブジェクトと局所的な類似性を共有する他のオブジェクトからの干渉を排除できます。
さらに、さまざまなシーンにおける共顕著オブジェクトの変化を考慮する、Transformer ベースの分散モジュールを提案します。
グループ内の対話を最大限に活用しながら、画像固有の方法でコンセンサスを画像特徴マップに配布します。
これら 2 つのモジュールは、ViT エンコーダおよび FPN のようなデコーダと統合されており、追加の分岐損失や補助損失なしで、エンドツーエンドのトレーニング可能なネットワークを形成します。
提案された方法は、一般的に使用される 3 つの CoSOD データセットで評価され、最先端のパフォーマンスを達成します。
要約(オリジナル)
Given a group of images, co-salient object detection (CoSOD) aims to highlight the common salient object in each image. There are two factors closely related to the success of this task, namely consensus extraction, and the dispersion of consensus to each image. Most previous works represent the group consensus using local features, while we instead utilize a hierarchical Transformer module for extracting semantic-level consensus. Therefore, it can obtain a more comprehensive representation of the common object category, and exclude interference from other objects that share local similarities with the target object. In addition, we propose a Transformer-based dispersion module that takes into account the variation of the co-salient object in different scenes. It distributes the consensus to the image feature maps in an image-specific way while making full use of interactions within the group. These two modules are integrated with a ViT encoder and an FPN-like decoder to form an end-to-end trainable network, without additional branch and auxiliary loss. The proposed method is evaluated on three commonly used CoSOD datasets and achieves state-of-the-art performance.
arxiv情報
著者 | Peiran Xu,Yadong Mu |
発行日 | 2023-09-14 14:39:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google