要約
この文書では、テキストと視覚モダリティを統合する統合アーキテクチャを備えたバイリンガル (アラビア語と英語) のバイオメディカル EXpert 大規模マルチモーダル モデル (LMM) である BiMediX2 を紹介し、高度な画像理解と医療アプリケーションを可能にします。
BiMediX2 は、Llama3.1 アーキテクチャを活用し、テキストとビジュアル機能を統合して、英語とアラビア語の両方でのシームレスな対話を促進し、テキストベースの入力と医療画像を含むマルチターン会話をサポートします。
このモデルは、アラビア語と英語が混在したテキストと画像の両方の多様な医療インタラクションの 160 万サンプルで構成される、広範なバイリンガル医療データセットでトレーニングされています。
また、BiMed-MBench という名前の初のバイリンガル GPT-4o ベースの医療 LMM ベンチマークも提案します。
BiMediX2 はテキストベースと画像ベースの両方のタスクでベンチマークされており、いくつかの医療ベンチマークにわたって最先端のパフォーマンスを実現しています。
医療 LLM 評価ベンチマークでは、最近の最先端モデルを上回ります。
また、当社のモデルは、英語での評価で 9% 以上、アラビア語での評価で 20% 以上の改善を示し、複合医療評価における新たなベンチマークを確立しました。
さらに、UPHILL の事実正確性評価において GPT-4 を約 9% 上回り、さまざまな医療用視覚的質問応答、レポート生成、およびレポート要約タスクにおいて優れています。
ソース コードとトレーニング済みモデルを含むプロジェクト ページは、https://github.com/mbzuai-oryx/BiMediX2 から入手できます。
要約(オリジナル)
This paper introduces BiMediX2, a bilingual (Arabic-English) Bio-Medical EXpert Large Multimodal Model (LMM) with a unified architecture that integrates text and visual modalities, enabling advanced image understanding and medical applications. BiMediX2 leverages the Llama3.1 architecture and integrates text and visual capabilities to facilitate seamless interactions in both English and Arabic, supporting text-based inputs and multi-turn conversations involving medical images. The model is trained on an extensive bilingual healthcare dataset consisting of 1.6M samples of diverse medical interactions for both text and image modalities, mixed in Arabic and English. We also propose the first bilingual GPT-4o based medical LMM benchmark named BiMed-MBench. BiMediX2 is benchmarked on both text-based and image-based tasks, achieving state-of-the-art performance across several medical benchmarks. It outperforms recent state-of-the-art models in medical LLM evaluation benchmarks. Our model also sets a new benchmark in multimodal medical evaluations with over 9% improvement in English and over 20% in Arabic evaluations. Additionally, it surpasses GPT-4 by around 9% in UPHILL factual accuracy evaluations and excels in various medical Visual Question Answering, Report Generation, and Report Summarization tasks. The project page including source code and the trained model, is available at https://github.com/mbzuai-oryx/BiMediX2.
arxiv情報
著者 | Sahal Shaji Mullappilly,Mohammed Irfan Kurpath,Sara Pieri,Saeed Yahya Alseiari,Shanavas Cholakkal,Khaled Aldahmani,Fahad Khan,Rao Anwer,Salman Khan,Timothy Baldwin,Hisham Cholakkal |
発行日 | 2024-12-10 18:59:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google