要約
大規模なマルチモーダル モデルの出現により、AI、特に病理学における顕著な可能性が解き放たれました。
しかし、専門的で高品質なベンチマークが存在しないため、その開発と正確な評価が妨げられていました。
これに対処するために、大規模マルチモーダル モデル (LMM) 用の最大かつ最高品質の専門家によって検証された病理ベンチマークである PathMMU を導入します。
これは、さまざまなソースからの 33,428 個のマルチモーダル多肢選択問題と 24,067 枚の画像で構成されており、それぞれに正解の説明が付いています。
PathMMU の構築では GPT-4V の高度な機能を利用し、30,000 を超える画像とキャプションのペアを利用してキャプションを強化し、カスケード プロセスで対応する Q&A を生成します。
重要なのは、PathMMU の権威を最大限に高めるために、PathMMU の検証およびテスト セットの厳格な基準に基づいて各質問を精査するために 7 人の病理学者を招待すると同時に、PathMMU の専門家レベルのパフォーマンス ベンチマークを設定していることです。
私たちは、14 個のオープンソース LMM と 4 個のクローズドソース LMM のゼロショット評価と、画像破損に対する堅牢性を含む広範な評価を実施しています。
また、代表的な LMM を微調整して、PathMMU への適応性を評価します。
経験的調査結果は、高度な LMM が、困難な PathMMU ベンチマークに苦戦していることを示しており、最高性能の LMM である GPT-4V のゼロショット パフォーマンスは 49.8% にとどまっており、人間の病理学者が実証した 71.8% よりも大幅に低いことが示されています。
微調整を行った後、大幅に小型のオープンソース LMM は GPT-4V を上回る性能を発揮する可能性がありますが、病理学者が示す専門知識にはまだ達していません。
私たちは、PathMMU が貴重な洞察を提供し、病理学のためのより専門化された次世代 LMM の開発を促進することを期待しています。
要約(オリジナル)
The emergence of large multimodal models has unlocked remarkable potential in AI, particularly in pathology. However, the lack of specialized, high-quality benchmark impeded their development and precise evaluation. To address this, we introduce PathMMU, the largest and highest-quality expert-validated pathology benchmark for Large Multimodal Models (LMMs). It comprises 33,428 multimodal multi-choice questions and 24,067 images from various sources, each accompanied by an explanation for the correct answer. The construction of PathMMU harnesses GPT-4V’s advanced capabilities, utilizing over 30,000 image-caption pairs to enrich captions and generate corresponding Q&As in a cascading process. Significantly, to maximize PathMMU’s authority, we invite seven pathologists to scrutinize each question under strict standards in PathMMU’s validation and test sets, while simultaneously setting an expert-level performance benchmark for PathMMU. We conduct extensive evaluations, including zero-shot assessments of 14 open-sourced and 4 closed-sourced LMMs and their robustness to image corruption. We also fine-tune representative LMMs to assess their adaptability to PathMMU. The empirical findings indicate that advanced LMMs struggle with the challenging PathMMU benchmark, with the top-performing LMM, GPT-4V, achieving only a 49.8% zero-shot performance, significantly lower than the 71.8% demonstrated by human pathologists. After fine-tuning, significantly smaller open-sourced LMMs can outperform GPT-4V but still fall short of the expertise shown by pathologists. We hope that the PathMMU will offer valuable insights and foster the development of more specialized, next-generation LMMs for pathology.
arxiv情報
著者 | Yuxuan Sun,Hao Wu,Chenglu Zhu,Sunyi Zheng,Qizi Chen,Kai Zhang,Yunlong Zhang,Dan Wan,Xiaoxiao Lan,Mengyue Zheng,Jingxiong Li,Xinheng Lyu,Tao Lin,Lin Yang |
発行日 | 2024-03-20 17:13:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google