要約
マルチモーダル大規模言語モデル(MLLM)は、様々な視覚・言語タスクの汎用インターフェースとして素晴らしい能力を示してきた。しかし、医療分野におけるマルチタスク学習のための統一的なMLLMの構築は、依然として茨の道である。MLLMにおけるマルチモーダルなマルチタスク最適化の綱引き問題を緩和するために、最近の進歩は主にLLMコンポーネントの改善に焦点を当て、モダリティ間のギャップを埋めるコネクターは無視されている。本論文では、ユニバーサル視覚特徴抽出モジュール、コネクターCMoEモジュール、LLMから構成される、新しい医療ジェネラリスト基礎モデルUni-Medを紹介する。Uni-Medは、コネクタに投影専門家の混合を持つ適切に設計されたルータを活用するCMoEを提案することにより、綱引き問題の効率的な解決を達成し、質問応答、視覚的質問応答、レポート生成、参照表現理解、参照表現生成、画像分類を含む6つの異なる医療タスクを実行することができる。我々の知る限り、Uni-MedはMLLMにおけるコネクタでのマルチタスク干渉に取り組む最初の取り組みである。広範なアブレーション実験により、どのような構成においてもCMoE導入の有効性が検証され、最大平均8%の性能向上が見られた。さらに、勾配最適化とパラメータ統計の観点から、綱引き問題の解釈分析を行う。これまでの最先端の医療用MLLMと比較して、Uni-Medは多様なタスクにおいて競争力のある、あるいは優れた評価指標を達成している。コードとリソースはhttps://github.com/tsinghua-msiip/Uni-Med。
要約(オリジナル)
Multi-modal large language models (MLLMs) have shown impressive capabilities as a general-purpose interface for various visual and linguistic tasks. However, building a unified MLLM for multi-task learning in the medical field remains a thorny challenge. To mitigate the tug-of-war problem of multi-modal multi-task optimization in MLLMs, recent advances primarily focus on improving the LLM components, while neglecting the connector that bridges the gap between modalities. In this paper, we introduce Uni-Med, a novel medical generalist foundation model which consists of a universal visual feature extraction module, a connector mixture-of-experts (CMoE) module, and an LLM. Benefiting from the proposed CMoE that leverages a well-designed router with a mixture of projection experts at the connector, Uni-Med achieves efficient solution to the tug-of-war problem and can perform six different medical tasks including question answering, visual question answering, report generation, referring expression comprehension, referring expression generation and image classification. To the best of our knowledge, Uni-Med is the first effort to tackle multi-task interference at the connector in MLLMs. Extensive ablation experiments validate the effectiveness of introducing CMoE under any configuration, with up to an average 8% performance gains. We further provide interpretation analysis of the tug-of-war problem from the perspective of gradient optimization and parameter statistics. Compared to previous state-of-the-art medical MLLMs, Uni-Med achieves competitive or superior evaluation metrics on diverse tasks. Code and resources are available at https://github.com/tsinghua-msiip/Uni-Med.
arxiv情報
著者 | Xun Zhu,Ying Hu,Fanbin Mo,Miao Li,Ji Wu |
発行日 | 2024-11-01 02:38:53+00:00 |
arxivサイト | arxiv_id(pdf) |