Sharp Eyes: A Salient Object Detector Working The Same Way as Human Visual Characteristics

要約

現在の方法では、マルチレベルの機能を集約するか、エッジとスケルトンを導入して、より洗練された顕著性マップを取得します。
ただし、ターゲットの色とテクスチャが通常背景に類似している雑然とした背景で完全な顕著なオブジェクトを取得する方法にはほとんど注意が払われていません。
この複雑なシーンを処理するために、最初にオブジェクトをシーンから分離し、次にそれを細かくセグメント化するシャープ アイ ネットワーク (SENet) を提案します。
オブジェクトの欠陥を補うためにエッジまたはスケルトンを直接統合する以前の方法とは異なり、提案された方法は、拡張されたオブジェクトを利用してネットワークを誘導し、完全な予測を取得することを目的としています。
具体的には、SENet は主に、新しい階層差分認識 (HDA) 損失を最小限に抑えることによってトレーニングされたターゲット分離 (TS) ブランチとオブジェクト セグメンテーション (OS) ブランチで構成されます。
TS ブランチでは、前景と背景の細部の違いを拡大できる、拡張されたグラウンド トゥルースの監視を介して拡張された境界を持つ顕著性特徴を生成するフラクタル構造を構築します。
OSブランチでは、最初にマルチレベル機能を集約して補完的なコンポーネントを適応的に選択し、次に拡張された境界を持つ顕著性機能を集約機能にフィードして、ネットワークが完全な予測を取得するように導きます。
さらに、構造的完全性と顕著なオブジェクトの局所的な詳細をさらに改善するために、HDA損失を提案します。これにより、境界からの距離に応じて各ピクセルに階層的に重みが割り当てられます。
境界領域で外観が似ているハード ピクセルは、完全性予測における重要性を強調するために階層的に注目されます。
5つのデータセットに関する包括的な実験結果は、提案されたアプローチが最先端の方法よりも定量的および定性的に優れていることを示しています。

要約(オリジナル)

Current methods aggregate multi-level features or introduce edge and skeleton to get more refined saliency maps. However, little attention is paid to how to obtain the complete salient object in cluttered background, where the targets are usually similar in color and texture to the background. To handle this complex scene, we propose a sharp eyes network (SENet) that first seperates the object from scene, and then finely segments it, which is in line with human visual characteristics, i.e., to look first and then focus. Different from previous methods which directly integrate edge or skeleton to supplement the defects of objects, the proposed method aims to utilize the expanded objects to guide the network obtain complete prediction. Specifically, SENet mainly consists of target separation (TS) brach and object segmentation (OS) branch trained by minimizing a new hierarchical difference aware (HDA) loss. In the TS branch, we construct a fractal structure to produce saliency features with expanded boundary via the supervision of expanded ground truth, which can enlarge the detail difference between foreground and background. In the OS branch, we first aggregate multi-level features to adaptively select complementary components, and then feed the saliency features with expanded boundary into aggregated features to guide the network obtain complete prediction. Moreover, we propose the HDA loss to further improve the structural integrity and local details of the salient objects, which assigns weight to each pixel according to its distance from the boundary hierarchically. Hard pixels with similar appearance in border region will be given more attention hierarchically to emphasize their importance in completeness prediction. Comprehensive experimental results on five datasets demonstrate that the proposed approach outperforms the state-of-the-art methods both quantitatively and qualitatively.

arxiv情報

著者 Ge Zhu,Jinbao Li,Yahong Guo
発行日 2023-01-18 11:00:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク