CoSformer: Detecting Co-Salient Object with Transformers

要約

Co-Salient Object Detection (CoSOD) は、人間の視覚系をシミュレートして、関連する画像のグループから共通の顕著なオブジェクトを発見することを目的としています。
最近の方法は通常、洗練された深層学習ベースのモデルを開発し、CoSOD タスクのパフォーマンスを大幅に改善しました。
しかし、さらに対処する必要がある 2 つの主要な欠点がまだあります。1) 画像間の関係モデリングが最適ではない。
2) 画像間の分離可能性が考慮されていない。
この論文では、複数の画像から顕著な視覚パターンと一般的な視覚パターンの両方をキャプチャするために、Co-Salient Object Detection Transformer (CoSformer) ネットワークを提案します。
Transformer アーキテクチャを活用することにより、提案された方法は入力順序の影響に対処し、CoSOD タスクの安定性を大幅に改善します。
また、画像間の分離可能性の新しい概念を紹介します。
画像間の分離可能性をモデル化するためのコントラスト学習スキームを構築し、より識別可能な埋め込み空間を学習して、真の共通オブジェクトをノイズの多いオブジェクトから区別します。
CoCA、CoSOD3k、および Cosal2015 という 3 つの挑戦的なベンチマークに関する広範な実験は、当社の CoSformer が最先端のモデルよりも優れており、新しい最先端を達成することを示しています。
CoSformer が、より多くの視覚的共分析タスクのための将来の研究の動機となることを願っています。

要約(オリジナル)

Co-Salient Object Detection (CoSOD) aims at simulating the human visual system to discover the common and salient objects from a group of relevant images. Recent methods typically develop sophisticated deep learning based models have greatly improved the performance of CoSOD task. But there are still two major drawbacks that need to be further addressed, 1) sub-optimal inter-image relationship modeling; 2) lacking consideration of inter-image separability. In this paper, we propose the Co-Salient Object Detection Transformer (CoSformer) network to capture both salient and common visual patterns from multiple images. By leveraging Transformer architecture, the proposed method address the influence of the input orders and greatly improve the stability of the CoSOD task. We also introduce a novel concept of inter-image separability. We construct a contrast learning scheme to modeling the inter-image separability and learn more discriminative embedding space to distinguish true common objects from noisy objects. Extensive experiments on three challenging benchmarks, i.e., CoCA, CoSOD3k, and Cosal2015, demonstrate that our CoSformer outperforms cutting-edge models and achieves the new state-of-the-art. We hope that CoSformer can motivate future research for more visual co-analysis tasks.

arxiv情報

著者 Lv Tang,Bo Li
発行日 2022-09-22 12:23:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク