Capabilities of Gemini Models in Medicine

要約

さまざまな医療アプリケーションにおける優れた性能は、高度な推論、最新の医学知識へのアクセス、複雑でマルチモーダルなデータの理解を必要とする AI にとって大きな課題となります。
ジェミニ モデルは、マルチモーダルでロングコンテキストの推論における強力な一般的な機能を備えており、医学に刺激的な可能性をもたらします。
これらの Gemini の中核的な強みを基盤として、Web 検索をシームレスに使用する機能を備えた医療に特化した高機能マルチモーダル モデルのファミリーである Med-Gemini を紹介します。これは、カスタム エンコーダを使用して新しいモダリティに効率的に調整できます。
当社は 14 の医療ベンチマークで Med-Gemini を評価し、そのうちの 10 で新しい最先端 (SoTA) パフォーマンスを確立し、直接比較が可能なすべてのベンチマークで GPT-4 モデル ファミリーを上回っています。
マージン。
人気の MedQA (USMLE) ベンチマークでは、当社の最高パフォーマンスの Med-Gemini モデルは、新しい不確実性に基づく検索戦略を使用して、91.1% の精度の SoTA パフォーマンスを達成しています。
NEJM Image Challenges や MMMU (健康と医療) を含む 7 つのマルチモーダル ベンチマークでは、Med-Gemini は GPT-4V よりも平均相対マージン 44.5% 向上しています。
私たちは、匿名化された長い健康記録と医療ビデオ質問応答から干し草の山に針を刺すような検索タスクにおける SoTA パフォーマンスを通じて、Med-Gemini のロングコンテキスト機能の有効性を実証し、コンテキスト内学習のみを使用した以前のオーダーメイドの方法を上回りました。
最後に、Med-Gemini のパフォーマンスは、医療テキストの要約などのタスクにおいて人間の専門家を上回るという現実世界の有用性を示唆するとともに、マルチモーダルな医療対話、医学研究、教育の有望な可能性を実証しています。
総合すると、私たちの結果は、メッド・ジェミニの可能性を示す説得力のある証拠を提供しますが、安全性が重要なこの領域で実際に導入する前に、さらに厳密な評価が不可欠です。

要約(オリジナル)

Excellence in a wide variety of medical applications poses considerable challenges for AI, requiring advanced reasoning, access to up-to-date medical knowledge and understanding of complex multimodal data. Gemini models, with strong general capabilities in multimodal and long-context reasoning, offer exciting possibilities in medicine. Building on these core strengths of Gemini, we introduce Med-Gemini, a family of highly capable multimodal models that are specialized in medicine with the ability to seamlessly use web search, and that can be efficiently tailored to novel modalities using custom encoders. We evaluate Med-Gemini on 14 medical benchmarks, establishing new state-of-the-art (SoTA) performance on 10 of them, and surpass the GPT-4 model family on every benchmark where a direct comparison is viable, often by a wide margin. On the popular MedQA (USMLE) benchmark, our best-performing Med-Gemini model achieves SoTA performance of 91.1% accuracy, using a novel uncertainty-guided search strategy. On 7 multimodal benchmarks including NEJM Image Challenges and MMMU (health & medicine), Med-Gemini improves over GPT-4V by an average relative margin of 44.5%. We demonstrate the effectiveness of Med-Gemini’s long-context capabilities through SoTA performance on a needle-in-a-haystack retrieval task from long de-identified health records and medical video question answering, surpassing prior bespoke methods using only in-context learning. Finally, Med-Gemini’s performance suggests real-world utility by surpassing human experts on tasks such as medical text summarization, alongside demonstrations of promising potential for multimodal medical dialogue, medical research and education. Taken together, our results offer compelling evidence for Med-Gemini’s potential, although further rigorous evaluation will be crucial before real-world deployment in this safety-critical domain.

arxiv情報

著者 Khaled Saab,Tao Tu,Wei-Hung Weng,Ryutaro Tanno,David Stutz,Ellery Wulczyn,Fan Zhang,Tim Strother,Chunjong Park,Elahe Vedadi,Juanma Zambrano Chaves,Szu-Yeu Hu,Mike Schaekermann,Aishwarya Kamath,Yong Cheng,David G. T. Barrett,Cathy Cheung,Basil Mustafa,Anil Palepu,Daniel McDuff,Le Hou,Tomer Golany,Luyang Liu,Jean-baptiste Alayrac,Neil Houlsby,Nenad Tomasev,Jan Freyberg,Charles Lau,Jonas Kemp,Jeremy Lai,Shekoofeh Azizi,Kimberly Kanada,SiWai Man,Kavita Kulkarni,Ruoxi Sun,Siamak Shakeri,Luheng He,Ben Caine,Albert Webson,Natasha Latysheva,Melvin Johnson,Philip Mansfield,Jian Lu,Ehud Rivlin,Jesper Anderson,Bradley Green,Renee Wong,Jonathan Krause,Jonathon Shlens,Ewa Dominowska,S. M. Ali Eslami,Katherine Chou,Claire Cui,Oriol Vinyals,Koray Kavukcuoglu,James Manyika,Jeff Dean,Demis Hassabis,Yossi Matias,Dale Webster,Joelle Barral,Greg Corrado,Christopher Semturs,S. Sara Mahdavi,Juraj Gottweis,Alan Karthikesalingam,Vivek Natarajan
発行日 2024-05-01 17:12:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク