Efficient Medical Vision-Language Alignment Through Adapting Masked Vision Models

要約

クロスモーダルコントラスト学習を通じて、医療視覚言語の整合により、検索やゼロショット分類などの画像テキストマッチングタスクのパフォーマンスが有望であることが示されています。
ただし、従来のクロスモーダルコントラスト学習(CLIPベース)メソッドは、視覚的整合性の有効性を制限する最適ではない視覚表現能力に悩まされています。
対照的に、マルチモーダルマスクモデリングを介して直接的なクロスモーダルマッチングと闘っているモデルは事前に守られていますが、視覚的表現に優れています。
この矛盾に対処するために、訓練可能なパラメーターの約8%とマスクされたレコードモデリングに必要な計算消費量の1/5未満を利用する効率的な医療視覚アラインメント方法であるAlta(適応による整列)を提案します。
Altaは、Masked Record Modelingから前処理されたビジョンモデルを適応させることにより、検索やゼロショット分類などのビジョン言語マッチングタスクで優れたパフォーマンスを実現します。
さらに、一時的なマルチビューレントゲン写真入力を統合して、レントゲン写真とレポートでの対応する説明との間の情報の一貫性を高め、ビジョン言語の調整をさらに改善します。
実験的評価は、Altaがテキストから画像への精度において4%以上の絶対ポイント、画像間検索精度で約6%の絶対ポイントを超える最高のパフォーマンスのカウンターパートを上回ることを示しています。
効率的なアラインメント中のビジョン言語モデルの適応は、より良いビジョンと言語の理解を促進します。
コードはhttps://github.com/dopaminelcy/altaで公開されています。

要約(オリジナル)

Medical vision-language alignment through cross-modal contrastive learning shows promising performance in image-text matching tasks, such as retrieval and zero-shot classification. However, conventional cross-modal contrastive learning (CLIP-based) methods suffer from suboptimal visual representation capabilities, which also limits their effectiveness in vision-language alignment. In contrast, although the models pretrained via multimodal masked modeling struggle with direct cross-modal matching, they excel in visual representation. To address this contradiction, we propose ALTA (ALign Through Adapting), an efficient medical vision-language alignment method that utilizes only about 8% of the trainable parameters and less than 1/5 of the computational consumption required for masked record modeling. ALTA achieves superior performance in vision-language matching tasks like retrieval and zero-shot classification by adapting the pretrained vision model from masked record modeling. Additionally, we integrate temporal-multiview radiograph inputs to enhance the information consistency between radiographs and their corresponding descriptions in reports, further improving the vision-language alignment. Experimental evaluations show that ALTA outperforms the best-performing counterpart by over 4% absolute points in text-to-image accuracy and approximately 6% absolute points in image-to-text retrieval accuracy. The adaptation of vision-language models during efficient alignment also promotes better vision and language understanding. Code is publicly available at https://github.com/DopamineLcy/ALTA.

arxiv情報

著者 Chenyu Lian,Hong-Yu Zhou,Dongyun Liang,Jing Qin,Liansheng Wang
発行日 2025-06-10 17:02:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク