MedMax: Mixed-Modal Instruction Tuning for Training Biomedical Assistants

要約

混合モーダル生成の最近の進歩により、生物医学画像を分析し、それらに関する複雑な質問に答え、マルチモーダル患者報告を生成できる統一された生物医学アシスタントを開発するための新しい道が開かれました。
ただし、既存のデータセットは、小型サイズ、生物医学的タスクとドメインの限られたカバレッジ、狭いソースへの依存などの課題に直面しています。
これらのギャップに対処するために、混合モーダルファンデーションモデルの大規模なマルチモーダル生物医学指導チューニングデータセットであるMedMaxを提示します。
147万のインスタンスを備えたMedMaxには、インターリーブ画像テキスト生成、生物医学的画像キャプションと生成、視覚的チャット、レポートの理解など、多様なタスクが含まれます。
これらのタスクは、医療用紙やYouTubeビデオに基づいた放射線学や組織病理学など、多様な生物医学的領域にまたがる知識に及びます。
その後、MedMaxデータセットで混合モーダルファンデーションモデルを微調整し、大幅なパフォーマンスの改善を達成しました。カメレオンモデルよりも26%の増加と、12のダウンストリーム生物医学の視覚的質問タスクにわたってGPT-4Oよりも18.3%の改善です。
最後に、混合モーダル生物医学AIアシスタントの開発を導くために、生物医学タスクの統一された評価スイートを紹介します。
データ、モデル、およびコードは、https://mint-medmax.github.io/で入手できます。

要約(オリジナル)

Recent advancements in mixed-modal generative have opened new avenues for developing unified biomedical assistants capable of analyzing biomedical images, answering complex questions about them, and generating multimodal patient reports. However, existing datasets face challenges such as small sizes, limited coverage of biomedical tasks and domains, and a reliance on narrow sources. To address these gaps, we present MedMax, a large-scale multimodal biomedical instruction-tuning dataset for mixed-modal foundation models. With 1.47 million instances, MedMax encompasses a diverse range of tasks, including interleaved image-text generation, biomedical image captioning and generation, visual chat, and report understanding. These tasks span knowledge across diverse biomedical domains, including radiology and histopathology, grounded in medical papers and YouTube videos. Subsequently, we fine-tune a mixed-modal foundation model on the MedMax dataset, achieving significant performance improvements: a 26% gain over the Chameleon model and an 18.3% improvement over GPT-4o across 12 downstream biomedical visual question-answering tasks. Finally, we introduce a unified evaluation suite for biomedical tasks to guide the development of mixed-modal biomedical AI assistants. The data, model, and code is available at https://mint-medmax.github.io/.

arxiv情報

著者 Hritik Bansal,Daniel Israel,Siyan Zhao,Shufan Li,Tung Nguyen,Aditya Grover
発行日 2025-04-23 06:29:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク