VividMed: Vision Language Model with Versatile Visual Grounding for Medicine

要約

ビジョン言語モデル (VLM) の最近の進歩により、視覚に基づいた応答を生成することが顕著に期待できることが実証されました。
しかし、医療分野での応用は特有の課題によって妨げられています。
たとえば、ほとんどの VLM は単一の視覚的根拠付け方法に依存していますが、複雑な医療タスクにはより多用途なアプローチが必要です。
さらに、ほとんどの VLM は 2D 画像のみを処理しますが、医療画像の大部分は 3D です。
医療データの欠如がこれらの障害をさらに悪化させます。
これらの課題に対処するために、私たちは医療のための多用途の視覚的基盤を備えたビジョン言語モデルである VividMed を紹介します。
私たちのモデルは、セマンティック セグメンテーション マスクとインスタンス レベルのバウンディング ボックスの両方の生成をサポートし、2D データと 3D データの両方を含むさまざまなイメージング モダリティに対応します。
オープンなデータセットとモデルに基づいて、3 段階のトレーニング手順と自動データ合成パイプラインを設計します。
VividMed は、視覚的な基礎タスクに加えて、視覚的な質問応答 (VQA) やレポート生成など、他の一般的な下流タスクにも優れています。
アブレーション研究は、視覚的グラウンディング能力の統合がこれらのタスクのパフォーマンスの向上につながることを経験的に示しています。
私たちのコードは https://github.com/function2-llx/MMMM で公開されています。

要約(オリジナル)

Recent advancements in Vision Language Models (VLMs) have demonstrated remarkable promise in generating visually grounded responses. However, their application in the medical domain is hindered by unique challenges. For instance, most VLMs rely on a single method of visual grounding, whereas complex medical tasks demand more versatile approaches. Additionally, while most VLMs process only 2D images, a large portion of medical images are 3D. The lack of medical data further compounds these obstacles. To address these challenges, we present VividMed, a vision language model with versatile visual grounding for medicine. Our model supports generating both semantic segmentation masks and instance-level bounding boxes, and accommodates various imaging modalities, including both 2D and 3D data. We design a three-stage training procedure and an automatic data synthesis pipeline based on open datasets and models. Besides visual grounding tasks, VividMed also excels in other common downstream tasks, including Visual Question Answering (VQA) and report generation. Ablation studies empirically show that the integration of visual grounding ability leads to improved performance on these tasks. Our code is publicly available at https://github.com/function2-llx/MMMM.

arxiv情報

著者 Lingxiao Luo,Bingda Tang,Xuanzhong Chen,Rong Han,Ting Chen
発行日 2024-10-16 15:54:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク