PGNeXt: High-Resolution Salient Object Detection via Pyramid Grafting Network

要約

我々は、データセットとネットワークフレームワークの両方の観点から、より困難な高解像度顕著物体検出(HRSOD)に関する先進的な研究を発表する。HRSODデータセットの不足を補うため、我々はUHRSDと呼ばれる大規模な高解像度顕著物体検出データセットを収集した。すべての画像はピクセル単位で細かくアノテーションされており、これまでの低解像度SODデータセットをはるかに凌駕している。従来の手法におけるサンプリング深度と受容野サイズの間の矛盾を克服することを目的として、我々はピラミッドグラフトメカニズムを用いたHR-SODタスクのための新しい1段フレームワークを提案する。一般に、異なる解像度の画像から独立に特徴を抽出するために、変換器ベースのバックボーンとCNNベースのバックボーンが採用され、次にこれらの特徴が変換器ブランチからCNNブランチに接ぎ木される。注意に基づくクロスモデルグラフトモジュール(CMGM)は、CNNブランチがデコード処理中に異なるソース特徴に導かれながら、壊れた詳細情報をより全体的に結合できるようにするために提案される。さらに、CMGMによって生成された注意行列を明示的に監督するAttention Guided Loss (AGL)を設計し、ネットワークが異なる枝からの注意とよりうまく相互作用できるようにする。UHRSDと広く利用されているSODデータセットを用いた包括的な実験により、我々の手法が、顕著な物体の位置を特定すると同時に、豊かなディテールを保持することができ、最先端の手法を凌駕することが実証された。提案するフレームワークの汎化能力を検証するために、カモフラージュ物体検出(COD)タスクに適用する。注目すべきことに、本手法はベルやホイッスル無しで、ほとんどの最先端COD手法よりも優れた性能を発揮する。

要約(オリジナル)

We present an advanced study on more challenging high-resolution salient object detection (HRSOD) from both dataset and network framework perspectives. To compensate for the lack of HRSOD dataset, we thoughtfully collect a large-scale high resolution salient object detection dataset, called UHRSD, containing 5,920 images from real-world complex scenarios at 4K-8K resolutions. All the images are finely annotated in pixel-level, far exceeding previous low-resolution SOD datasets. Aiming at overcoming the contradiction between the sampling depth and the receptive field size in the past methods, we propose a novel one-stage framework for HR-SOD task using pyramid grafting mechanism. In general, transformer-based and CNN-based backbones are adopted to extract features from different resolution images independently and then these features are grafted from transformer branch to CNN branch. An attention-based Cross-Model Grafting Module (CMGM) is proposed to enable CNN branch to combine broken detailed information more holistically, guided by different source feature during decoding process. Moreover, we design an Attention Guided Loss (AGL) to explicitly supervise the attention matrix generated by CMGM to help the network better interact with the attention from different branches. Comprehensive experiments on UHRSD and widely-used SOD datasets demonstrate that our method can simultaneously locate salient object and preserve rich details, outperforming state-of-the-art methods. To verify the generalization ability of the proposed framework, we apply it to the camouflaged object detection (COD) task. Notably, our method performs superior to most state-of-the-art COD methods without bells and whistles.

arxiv情報

著者 Changqun Xia,Chenxi Xie,Zhentao He,Tianshu Yu,Jia Li
発行日 2024-08-02 09:31:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク