Deep Multimodal Collaborative Learning for Polyp Re-Identification

要約

結腸鏡ポリープ再識別は、大規模なギャラリーからの同じポリープを、さまざまなカメラを使用して撮影されたさまざまな視点からの画像と照合することを目的としています。これは、コンピューター支援診断における結腸直腸がんの予防と治療において重要な役割を果たします。
ただし、ImageNet データセットでトレーニングされた CNN モデルを直接採用するオブジェクト ReID の従来の方法では、通常、ドメイン ギャップが大きいため、結腸鏡データセットでは満足のいく検索パフォーマンスが得られません。
さらに悪いことに、これらのソリューションは通常、視覚サンプルに基づいて単峰的なモーダル表現を学習するため、他の異なるモダリティからの補完的な情報を探索できません。
この課題に対処するために、私たちは、ポリープ再識別のための DMCL という名前の新しい深層マルチモーダル協調学習フレームワークを提案します。これは、モダリティのコラボレーションを効果的に促進し、医療シナリオにおける一般化機能を強化できます。
これに基づいて、動的なマルチモーダル特徴融合戦略が導入され、エンドツーエンドのトレーニングを介してマルチモーダル融合に最適化されたマルチモーダル表現を活用します。
標準ベンチマークの実験では、特に特殊なマルチモーダル融合戦略と組み合わせた場合に、最先端のユニモーダル ReID モデルに対するマルチモーダル設定の利点が示されており、これにより、マルチモーダルを使用した学習表現が他のモデルと競合できることが証明されました。
単峰性表現学習に基づく手法。
また、私たちの方法が、特にマルチモーダルな協調学習に関して、前進するためにいくつかの関連研究に光を当てることを期待しています。
コードは https://github.com/JeremyXSC/DMCL で公開されています。

要約(オリジナル)

Colonoscopic Polyp Re-Identification aims to match the same polyp from a large gallery with images from different views taken using different cameras, which plays an important role in the prevention and treatment of colorectal cancer in computer-aided diagnosis. However, traditional methods for object ReID directly adopting CNN models trained on the ImageNet dataset usually produce unsatisfactory retrieval performance on colonoscopic datasets due to the large domain gap. Worsely, these solutions typically learn unimodal modal representations on the basis of visual samples, which fails to explore complementary information from other different modalities. To address this challenge, we propose a novel Deep Multimodal Collaborative Learning framework named DMCL for polyp re-identification, which can effectively encourage modality collaboration and reinforce generalization capability in medical scenarios. On the basis of it, a dynamic multimodal feature fusion strategy is introduced to leverage the optimized multimodal representations for multimodal fusion via end-to-end training. Experiments on the standard benchmarks show the benefits of the multimodal setting over state-of-the-art unimodal ReID models, especially when combined with the specialized multimodal fusion strategy, from which we have proved that learning representation with multiple-modality can be competitive to methods based on unimodal representation learning. We also hope that our method will shed light on some related researches to move forward, especially for multimodal collaborative learning. The code is publicly available at https://github.com/JeremyXSC/DMCL.

arxiv情報

著者 Suncheng Xiang,Jincheng Li,Zhengjie Zhang,Shilun Cai,Jiale Guan,Dahong Qian
発行日 2024-09-24 14:35:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク