要約
画像誘導手術には、適応性のあるリアルタイムの意思決定サポートが必要ですが、静的AIモデルは構造化されたタスク計画とインタラクティブなガイダンスの提供と闘っています。
大規模なビジョン言語モデル(VLMS)は、動的なタスク計画と予測意思決定サポートを可能にすることにより、有望なソリューションを提供します。
会話、計画、およびタスクの実行が可能な画像誘導下垂体手術のためのAI副操縦士であるSurgicalVlm-Agentを紹介します。
エージェントは、MRI腫瘍のセグメンテーション、内視鏡の解剖学のセグメンテーション、術前のビュー、機器追跡、および外科的視覚質問(VQA)との術前イメージングのオーバーレイ(VQA)などのタスクを動的に処理し、計画します。
構造化されたタスク計画を可能にするために、セグメンテーション、オーバーレイ、機器のローカリゼーション、ツール追跡、ツール組織の相互作用、位相識別、および外科的活動の認識をカバーする外科的コンテキスト認識データセットであるPitagentデータセットを開発します。
さらに、効率的な低ランク適応のための高速フーリエ変換(FFT)ベースの勾配投影技術であるFFT-Galoreを提案し、外科環境でLlama 3.2の微調整を最適化します。
Pitagentデータセットのタスク計画と迅速な生成を評価し、公共下垂体データセットを使用してゼロショットVQAを評価することにより、SurgicalVlm-Agentを検証します。
結果は、非常に意味的に意味のあるVQA応答を備えたタスク計画とクエリ解釈における最先端のパフォーマンスを示しており、AI主導の外科的支援を進めています。
要約(オリジナル)
Image-guided surgery demands adaptive, real-time decision support, yet static AI models struggle with structured task planning and providing interactive guidance. Large vision-language models (VLMs) offer a promising solution by enabling dynamic task planning and predictive decision support. We introduce SurgicalVLM-Agent, an AI co-pilot for image-guided pituitary surgery, capable of conversation, planning, and task execution. The agent dynamically processes surgeon queries and plans the tasks such as MRI tumor segmentation, endoscope anatomy segmentation, overlaying preoperative imaging with intraoperative views, instrument tracking, and surgical visual question answering (VQA). To enable structured task planning, we develop the PitAgent dataset, a surgical context-aware dataset covering segmentation, overlaying, instrument localization, tool tracking, tool-tissue interactions, phase identification, and surgical activity recognition. Additionally, we propose FFT-GaLore, a fast Fourier transform (FFT)-based gradient projection technique for efficient low-rank adaptation, optimizing fine-tuning for LLaMA 3.2 in surgical environments. We validate SurgicalVLM-Agent by assessing task planning and prompt generation on our PitAgent dataset and evaluating zero-shot VQA using a public pituitary dataset. Results demonstrate state-of-the-art performance in task planning and query interpretation, with highly semantically meaningful VQA responses, advancing AI-driven surgical assistance.
arxiv情報
著者 | Jiayuan Huang,Runlong He,Danyal Z. Khan,Evangelos Mazomenos,Danail Stoyanov,Hani J. Marcus,Matthew J. Clarkson,Mobarakol Islam |
発行日 | 2025-03-12 15:30:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google