要約
大規模な視覚言語モデルは、AI主導の画像理解のための新しいパラダイムを提供し、タスク固有のトレーニングなしにタスクを実行することを可能にする。この柔軟性は、専門家の注釈付きデータが乏しい医療分野では特に有望である。しかし、意思決定が主観的であり、臨床シナリオが多様である、介入に焦点を当てた領域、特に外科手術において、VLMの実用性は不確かなままである。ここでは、腹腔鏡手術、ロボット手術、および開腹手術にまたがる13のデータセットを用いて、手術AIにおける17の主要な視覚的理解タスク(解剖学的認識から技能評価まで)にわたる、11の最先端のVLMの包括的な分析を示す。我々の実験では、VLMは有望な汎化性を示し、訓練環境外で展開された場合、教師ありモデルを上回ることもある。テスト中に例を組み込んだインコンテキスト学習は、性能を3倍まで向上させ、適応性が重要な強みであることを示唆している。それでも、空間的推論や時間的推論を必要とするタスクは依然として困難であった。我々の発見は、外科手術にとどまらず、臨床やより広範な実世界での応用において、複雑で動的なシナリオに取り組むVLMの可能性を示唆するものである。
要約(オリジナル)
Large Vision-Language Models offer a new paradigm for AI-driven image understanding, enabling models to perform tasks without task-specific training. This flexibility holds particular promise across medicine, where expert-annotated data is scarce. Yet, VLMs’ practical utility in intervention-focused domains–especially surgery, where decision-making is subjective and clinical scenarios are variable–remains uncertain. Here, we present a comprehensive analysis of 11 state-of-the-art VLMs across 17 key visual understanding tasks in surgical AI–from anatomy recognition to skill assessment–using 13 datasets spanning laparoscopic, robotic, and open procedures. In our experiments, VLMs demonstrate promising generalizability, at times outperforming supervised models when deployed outside their training setting. In-context learning, incorporating examples during testing, boosted performance up to three-fold, suggesting adaptability as a key strength. Still, tasks requiring spatial or temporal reasoning remained difficult. Beyond surgery, our findings offer insights into VLMs’ potential for tackling complex and dynamic scenarios in clinical and broader real-world applications.
arxiv情報
著者 | Anita Rau,Mark Endo,Josiah Aklilu,Jaewoo Heo,Khaled Saab,Alberto Paderno,Jeffrey Jopling,F. Christopher Holsinger,Serena Yeung-Levy |
発行日 | 2025-04-03 17:42:56+00:00 |
arxivサイト | arxiv_id(pdf) |