要約
本稿では、落書き監視による弱く監視されたRGB-D顕著物体検出モデルを紹介します。
具体的には、マルチモーダル学習タスクとして、モーダル間の相互情報量正則化による効果的なマルチモーダル表現学習に焦点を当てます。
特に、もつれ解除表現学習の原理に従って、相互情報量最小化正則化機能を備えた相互情報量上限を導入し、顕著な物体検出のための各モダリティのもつれ解除表現を促進します。
マルチモーダル表現学習フレームワークに基づいて、マルチモーダル データに対して非対称特徴抽出器を導入します。これは、従来の対称バックボーン設定よりも効果的であることが証明されています。
また、確率的予測改良技術としてマルチモーダル変分自動エンコーダーを導入します。これは、最初のトレーニング段階から擬似ラベルを監視として取得し、改良された予測を生成します。
ベンチマーク RGB-D 顕著物体検出データセットの実験結果では、明示的なマルチモーダル解絡表現学習手法と確率的予測改良戦略の両方の有効性が検証され、最先端の完全教師モデルと同等のパフォーマンスが達成されています。
コードとデータは https://github.com/baneitixiaomai/MIRV で入手できます。
要約(オリジナル)
In this paper, we present a weakly-supervised RGB-D salient object detection model via scribble supervision. Specifically, as a multimodal learning task, we focus on effective multimodal representation learning via inter-modal mutual information regularization. In particular, following the principle of disentangled representation learning, we introduce a mutual information upper bound with a mutual information minimization regularizer to encourage the disentangled representation of each modality for salient object detection. Based on our multimodal representation learning framework, we introduce an asymmetric feature extractor for our multimodal data, which is proven more effective than the conventional symmetric backbone setting. We also introduce multimodal variational auto-encoder as stochastic prediction refinement techniques, which takes pseudo labels from the first training stage as supervision and generates refined prediction. Experimental results on benchmark RGB-D salient object detection datasets verify both effectiveness of our explicit multimodal disentangled representation learning method and the stochastic prediction refinement strategy, achieving comparable performance with the state-of-the-art fully supervised models. Our code and data are available at: https://github.com/baneitixiaomai/MIRV.
arxiv情報
著者 | Aixuan Li,Yuxin Mao,Jing Zhang,Yuchao Dai |
発行日 | 2023-06-06 12:36:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google