要約
脳障害を理解することは、正確な臨床診断と治療のために重要です。
マルチモーダル大手言語モデル(MLLM)の最近の進歩は、テキストの説明をサポートして医療画像を解釈するための有望なアプローチを提供します。
ただし、以前の研究では主に2Dの医療画像に焦点を当てており、3D画像のより豊富な空間情報が不足しているため、他のモダリティに含まれる重要な臨床情報を見落とすことにより、単一モダリティベースの方法が制限されています。
この問題に対処するために、このペーパーでは、新しい知識を学び、元の訓練を受けた知識に浸透させるために追加のボトルネック層を組み込んだ新しいアプローチであるBrain-Adapterを提案します。
主要なアイデアは、軽量のボトルネック層を組み込んで、より少ないパラメーターを訓練しながら、重要な情報をキャプチャし、対照的な言語イメージ前トレーニング(CLIP)戦略を利用して、統一された表現スペース内でマルチモーダルデータを調整することです。
広範な実験により、マルチモーダルデータを統合して、高い計算コストなしで診断の精度を大幅に改善し、実際の診断ワークフローを強化する可能性を強調していることが示されました。
要約(オリジナル)
Understanding brain disorders is crucial for accurate clinical diagnosis and treatment. Recent advances in Multimodal Large Language Models (MLLMs) offer a promising approach to interpreting medical images with the support of text descriptions. However, previous research has primarily focused on 2D medical images, leaving richer spatial information of 3D images under-explored, and single-modality-based methods are limited by overlooking the critical clinical information contained in other modalities. To address this issue, this paper proposes Brain-Adapter, a novel approach that incorporates an extra bottleneck layer to learn new knowledge and instill it into the original pre-trained knowledge. The major idea is to incorporate a lightweight bottleneck layer to train fewer parameters while capturing essential information and utilize a Contrastive Language-Image Pre-training (CLIP) strategy to align multimodal data within a unified representation space. Extensive experiments demonstrated the effectiveness of our approach in integrating multimodal data to significantly improve the diagnosis accuracy without high computational costs, highlighting the potential to enhance real-world diagnostic workflows.
arxiv情報
著者 | Jing Zhang,Xiaowei Yu,Yanjun Lyu,Lu Zhang,Tong Chen,Chao Cao,Yan Zhuang,Minheng Chen,Tianming Liu,Dajiang Zhu |
発行日 | 2025-01-27 18:20:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google