A General Visual Representation Guided Framework with Global Affinity for Weakly Supervised Salient Object Detection

要約

完全に監視された顕著なオブジェクト検出 (SOD) メソッドは、パフォーマンスが大幅に向上しましたが、これらのモデルは高価なピクセル単位のラベルに大きく依存しています。
最近、ラベリングの負担とパフォーマンスのトレードオフを達成するために、落書きベースの SOD メソッドがますます注目を集めています。
以前のモデルは、小規模な SOD トレーニング データのみに基づいて SOD タスクを直接実装していました。
弱い落書きタグとそのような小規模なトレーニングデータによって提供される情報が限られているため、画像を理解し、さらに優れたSODタスクを達成することは非常に困難です.
この論文では、落書きベースの SOD に対する人間の一般的な認知をシミュレートする一般的な視覚的表現によって導かれる、シンプルでありながら効果的なフレームワークを提案します。
これは、タスク関連のエンコーダー、一般的な視覚モジュール、および情報統合モジュールで構成され、大規模なラベル付けされていないデータセットから学習した一般的な視覚的表現をタスク関連の機能と効率的に組み合わせて、コンテキストの接続の理解に基づいて SOD タスクを実行します。
画像。
一方、モデルが顕著なオブジェクトのグローバル構造を認識できるように導くために、新しいグローバルなセマンティック アフィニティ ロスを提案します。
5 つの公開ベンチマーク データセットでの実験結果は、余分なラベルを導入せずに落書き注釈のみを利用する私たちの方法が、最先端の弱く監視された SOD 方法よりも優れており、最先端の完全な方法に匹敵するか、さらには優れていることを示しています。
監修モデル。

要約(オリジナル)

Fully supervised salient object detection (SOD) methods have made considerable progress in performance, yet these models rely heavily on expensive pixel-wise labels. Recently, to achieve a trade-off between labeling burden and performance, scribble-based SOD methods have attracted increasing attention. Previous models directly implement the SOD task only based on small-scale SOD training data. Due to the limited information provided by the weakly scribble tags and such small-scale training data, it is extremely difficult for them to understand the image and further achieve a superior SOD task. In this paper, we propose a simple yet effective framework guided by general visual representations that simulate the general cognition of humans for scribble-based SOD. It consists of a task-related encoder, a general visual module, and an information integration module to combine efficiently the general visual representations learned from large-scale unlabeled datasets with task-related features to perform the SOD task based on understanding the contextual connections of images. Meanwhile, we propose a novel global semantic affinity loss to guide the model to perceive the global structure of the salient objects. Experimental results on five public benchmark datasets demonstrate that our method that only utilizes scribble annotations without introducing any extra label outperforms the state-of-the-art weakly supervised SOD methods and is comparable or even superior to the state-of-the-art fully supervised models.

arxiv情報

著者 Binwei Xu,Haoran Liang,Weihua Gong,Ronghua Liang,Peng Chen
発行日 2023-02-21 14:31:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク