MultiMedEval: A Benchmark and a Toolkit for Evaluating Medical Vision-Language Models

要約

大規模な医療視覚言語モデル (VLM) を公正かつ再現可能に評価するためのオープンソース ツールキットである MultiMedEval を紹介します。
MultiMedEval は、23 のデータセットおよび 11 の医療領域にわたって実施された、6 つのマルチモーダル タスクの広範なモデルのパフォーマンスを包括的に評価します。
選択されたタスクとパフォーマンス指標は、コミュニティでの広範な採用とその多様性に基づいており、モデルの全体的な一般化可能性が徹底的に評価されます。
シンプルなインターフェイスとセットアップ プロセスを備えた Python ツールキット (github.com/corentin-ryr/MultiMedEval) をオープンソース化しており、わずか数行のコードであらゆる VLM を評価できます。
私たちの目標は、VLM 評価の複雑な状況を簡素化し、将来のモデルの公平かつ均一なベンチマークを促進することです。

要約(オリジナル)

We introduce MultiMedEval, an open-source toolkit for fair and reproducible evaluation of large, medical vision-language models (VLM). MultiMedEval comprehensively assesses the models’ performance on a broad array of six multi-modal tasks, conducted over 23 datasets, and spanning over 11 medical domains. The chosen tasks and performance metrics are based on their widespread adoption in the community and their diversity, ensuring a thorough evaluation of the model’s overall generalizability. We open-source a Python toolkit (github.com/corentin-ryr/MultiMedEval) with a simple interface and setup process, enabling the evaluation of any VLM in just a few lines of code. Our goal is to simplify the intricate landscape of VLM evaluation, thus promoting fair and uniform benchmarking of future models.

arxiv情報

著者 Corentin Royer,Bjoern Menze,Anjany Sekuboyina
発行日 2024-02-16 16:36:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク