Challenging Vision-Language Models with Surgical Data: A New Dataset and Broad Benchmarking Study

要約

従来のコンピュータービジョンモデルは歴史的に内視鏡ドメインに一般化するのに苦労してきましたが、基礎モデルの出現により、有望なクロスドメインのパフォーマンスが示されています。
この作業では、腹腔鏡手術に特に焦点を当てた内視鏡タスクのビジョン言語モデル(VLM)の能力を評価する最初の大規模研究を提示します。
最先端モデルの多様なセット、複数の外科的データセット、および広範な人間の参照注釈を使用して、3つの重要な研究質問に対処します。(1)現在のVLMは、外科的画像の基本的な知覚タスクを解決できますか?
(2)高度なフレームベースの内視鏡シーンの理解タスクを処理できますか?
(3)この文脈では、専門化された医療VLMがジェネラリストモデルとどのように比較されますか?
我々の結果は、VLMSが一般的なドメインタスクに匹敵するパフォーマンスレベルで、オブジェクトのカウントやローカリゼーションなどの基本的な外科的認識タスクを効果的に実行できることを明らかにしています。
ただし、タスクに医学的知識が必要な場合、パフォーマンスは大幅に悪化します。
特に、基本的な外科的タスクと高度な外科的課題の両方にわたるジェネラリストモデルと比較して、現在、専門的な医療VLMがパフォーマンスが低いことがわかり、外科的環境の複雑さのためにまだ最適化されていないことが示唆されています。
これらの発見は、VLMが手術によってもたらされる独自の課題に対処できるようにするためのさらなる進歩の必要性を強調しています。
全体として、私たちの研究は、次世代内視鏡AIシステムの開発に関する重要な洞察を提供し、医療視覚言語モデルの改善のための重要な領域を特定します。

要約(オリジナル)

While traditional computer vision models have historically struggled to generalize to endoscopic domains, the emergence of foundation models has shown promising cross-domain performance. In this work, we present the first large-scale study assessing the capabilities of Vision Language Models (VLMs) for endoscopic tasks with a specific focus on laparoscopic surgery. Using a diverse set of state-of-the-art models, multiple surgical datasets, and extensive human reference annotations, we address three key research questions: (1) Can current VLMs solve basic perception tasks on surgical images? (2) Can they handle advanced frame-based endoscopic scene understanding tasks? and (3) How do specialized medical VLMs compare to generalist models in this context? Our results reveal that VLMs can effectively perform basic surgical perception tasks, such as object counting and localization, with performance levels comparable to general domain tasks. However, their performance deteriorates significantly when the tasks require medical knowledge. Notably, we find that specialized medical VLMs currently underperform compared to generalist models across both basic and advanced surgical tasks, suggesting that they are not yet optimized for the complexity of surgical environments. These findings highlight the need for further advancements to enable VLMs to handle the unique challenges posed by surgery. Overall, our work provides important insights for the development of next-generation endoscopic AI systems and identifies key areas for improvement in medical visual language models.

arxiv情報

著者 Leon Mayer,Tim Rädsch,Dominik Michael,Lucas Luttner,Amine Yamlahi,Evangelia Christodoulou,Patrick Godau,Marcel Knopp,Annika Reinke,Fiona Kolbinger,Lena Maier-Hein
発行日 2025-06-06 16:53:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク