要約
私たちは、CalibNet と呼ばれるデュアルブランチ クロスモーダル特徴量キャリブレーション アーキテクチャを使用した、RGB-D 顕著インスタンス セグメンテーションのための新しいアプローチを提案します。
私たちの方法では、カーネル ブランチとマスク ブランチの深度および RGB 特徴を同時に調整して、インスタンス対応のカーネルとマスク特徴を生成します。
CalibNet は、ダイナミック インタラクティブ カーネル (DIK) とウェイト共有フュージョン (WSF) という 3 つの単純なモジュールで構成されており、これらが連携して効果的なインスタンス対応カーネルを生成し、クロスモーダル機能を統合します。
深度特徴の品質を向上させるために、DIK および WSF の前に深度類似性評価 (DSA) モジュールを組み込みます。
さらに、精巧なインスタンス レベルの注釈が付けられた 1,940 枚の画像を含む、新しい DSIS データセットにも貢献します。
3 つの困難なベンチマークに関する広範な実験により、CalibNet が有望な結果、つまり COME15K-N テスト セットで 320*480 の入力サイズで 58.0% の AP をもたらし、これは代替フレームワークを大幅に上回ることが示されました。
コードとデータセットは https://github.com/PJLallen/CalibNet から入手できます。
要約(オリジナル)
We propose a novel approach for RGB-D salient instance segmentation using a dual-branch cross-modal feature calibration architecture called CalibNet. Our method simultaneously calibrates depth and RGB features in the kernel and mask branches to generate instance-aware kernels and mask features. CalibNet consists of three simple modules, a dynamic interactive kernel (DIK) and a weight-sharing fusion (WSF), which work together to generate effective instance-aware kernels and integrate cross-modal features. To improve the quality of depth features, we incorporate a depth similarity assessment (DSA) module prior to DIK and WSF. In addition, we further contribute a new DSIS dataset, which contains 1,940 images with elaborate instance-level annotations. Extensive experiments on three challenging benchmarks show that CalibNet yields a promising result, i.e., 58.0% AP with 320*480 input size on the COME15K-N test set, which significantly surpasses the alternative frameworks. Our code and dataset are available at: https://github.com/PJLallen/CalibNet.
arxiv情報
著者 | Jialun Pei,Tao Jiang,He Tang,Nian Liu,Yueming Jin,Deng-Ping Fan,Pheng-Ann Heng |
発行日 | 2024-06-11 14:07:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google