Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection

要約

カモフラージュオブジェクト検出 (COD) は、周囲の背景にシームレスに溶け込むオブジェクトを識別することを目的としています。
カモフラージュされたオブジェクトと背景領域の間には本質的な類似性があるため、既存のアプローチでカモフラージュされたオブジェクトを正確に区別することは非常に困難です。
この論文では、階層的なトークン化された特徴間の効果的なグラフ相互作用を介して知覚できないオブジェクトを発見できる、偽装オブジェクト検出用の HGINet と呼ばれる階層型グラフ相互作用ネットワークを提案します。
具体的には、まず動的トークン クラスタリングを備えたリージョン認識トークン フォーカシング アテンション (RTFA) を設計し、ローカル リージョンで潜在的に区別可能なトークンを発掘します。
その後、階層グラフ相互作用トランスフォーマー (HGIT) が、視覚的セマンティクス強化のための潜在相互作用空間内の階層特徴間の双方向に調整された通信を構築するために提案されます。
さらに、階層的に相互作用する特徴を段階的に融合して、あいまいな領域の局所的な詳細を洗練する、信頼性集約特徴融合 (CAFF) モジュールを備えたデコーダ ネットワークを提案します。
COD10K、CAMO、NC4K、CHAMELEON などの一般的なデータセットに対して行われた広範な実験により、既存の最先端の手法と比較して HGINet のパフォーマンスが優れていることが実証されました。
私たちのコードは https://github.com/Garyson1204/HGINet で入手できます。

要約(オリジナル)

Camouflaged object detection (COD) aims to identify the objects that seamlessly blend into the surrounding backgrounds. Due to the intrinsic similarity between the camouflaged objects and the background region, it is extremely challenging to precisely distinguish the camouflaged objects by existing approaches. In this paper, we propose a hierarchical graph interaction network termed HGINet for camouflaged object detection, which is capable of discovering imperceptible objects via effective graph interaction among the hierarchical tokenized features. Specifically, we first design a region-aware token focusing attention (RTFA) with dynamic token clustering to excavate the potentially distinguishable tokens in the local region. Afterwards, a hierarchical graph interaction transformer (HGIT) is proposed to construct bi-directional aligned communication between hierarchical features in the latent interaction space for visual semantics enhancement. Furthermore, we propose a decoder network with confidence aggregated feature fusion (CAFF) modules, which progressively fuses the hierarchical interacted features to refine the local detail in ambiguous regions. Extensive experiments conducted on the prevalent datasets, i.e. COD10K, CAMO, NC4K and CHAMELEON demonstrate the superior performance of HGINet compared to existing state-of-the-art methods. Our code is available at https://github.com/Garyson1204/HGINet.

arxiv情報

著者 Siyuan Yao,Hao Sun,Tian-Zhu Xiang,Xiao Wang,Xiaochun Cao
発行日 2024-08-27 12:53:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク