Sam-Guided Enhanced Fine-Grained Encoding with Mixed Semantic Learning for Medical Image Captioning

要約

マルチモダリティと大規模言語モデルの開発により、医療画像キャプション用の深層学習ベースの技術は、価値のある診断上の推奨事項を提供する可能性を秘めています。
ただし、現在の一般的なテキストおよび画像の事前トレーニング済みモデルでは、医療画像内の複雑な詳細を記述する場合に満足のいく結果が得られません。
この論文では、一般的および詳細な特徴抽出の両方による強化されたエンコードを可能にする、セグメント何でもモデル (SAM) に基づいた新しい医療画像キャプション方法を紹介します。
さらに、私たちのアプローチでは、混合セマンティック学習を備えた独特の事前トレーニング戦略を採用し、医療画像内の全体的な情報とより詳細な情報の両方を同時にキャプチャします。
医療画像の記述を生成するためのさまざまな評価指標において、事前トレーニングされた BLIP2 モデルよりも優れているため、このアプローチの有効性を実証します。

要約(オリジナル)

With the development of multimodality and large language models, the deep learning-based technique for medical image captioning holds the potential to offer valuable diagnostic recommendations. However, current generic text and image pre-trained models do not yield satisfactory results when it comes to describing intricate details within medical images. In this paper, we present a novel medical image captioning method guided by the segment anything model (SAM) to enable enhanced encoding with both general and detailed feature extraction. In addition, our approach employs a distinctive pre-training strategy with mixed semantic learning to simultaneously capture both the overall information and finer details within medical images. We demonstrate the effectiveness of this approach, as it outperforms the pre-trained BLIP2 model on various evaluation metrics for generating descriptions of medical images.

arxiv情報

著者 Zhenyu Zhang,Benlu Wang,Weijie Liang,Yizhi Li,Xuechen Guo,Guanhong Wang,Shiyan Li,Gaoang Wang
発行日 2023-12-30 17:17:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク