要約
外科的知能における視覚言語モデル(VLM)の統合は、幻覚、ドメインの知識のギャップ、および外科シーン内のタスクの相互依存性の限られた理解によって妨げられ、臨床的信頼性が損なわれます。
最近のVLMは強力な一般的な推論と思考能力を示していますが、正確な外科シーンの解釈に必要なドメインの専門知識とタスク認識がまだ欠けています。
チェーンオブ考え(COT)はより効果的に推論を構築できますが、現在のアプローチは自己生成されたCOTステップに依存しています。
これを克服するために、ロボット支援手術のほとんどのタスクに対して透明で解釈可能な洞察を提供するCOT駆動型のマルチエージェントフレームワークであるSurgrawを提示します。
機器認識、アクション認識、アクション予測、患者データ抽出、および結果評価の5つのタスクにわたって特殊なCOTプロンプトを採用することにより、Surgrawは構造化されたドメイン対応の推論を通じて幻覚を軽減します。
検索された生成(RAG)は、ドメインのギャップを橋渡しし、応答の信頼性を向上させるために、外部の医療知識に統合されています。
最も重要なことは、階層エージェントシステムは、パネルディスカッションメカニズムを備えたタスクの相互依存性を理解しながら、COT埋め込まれたVLMエージェントが効果的に協力して、論理的な一貫性を促進することです。
この方法を評価するために、構造化されたフレームレベルの注釈を備えた最初の推論ベースのデータセットであるSurgCotbenchを紹介します。
包括的な実験により、12のロボット手順でベースラインVLMSよりも29.32%の精度改善を伴う提案されたサーグローの有効性を実証し、最先端のパフォーマンスを達成し、説明可能で信頼できる、自律的な外科的支援を進めます。
要約(オリジナル)
Integration of Vision-Language Models (VLMs) in surgical intelligence is hindered by hallucinations, domain knowledge gaps, and limited understanding of task interdependencies within surgical scenes, undermining clinical reliability. While recent VLMs demonstrate strong general reasoning and thinking capabilities, they still lack the domain expertise and task-awareness required for precise surgical scene interpretation. Although Chain-of-Thought (CoT) can structure reasoning more effectively, current approaches rely on self-generated CoT steps, which often exacerbate inherent domain gaps and hallucinations. To overcome this, we present SurgRAW, a CoT-driven multi-agent framework that delivers transparent, interpretable insights for most tasks in robotic-assisted surgery. By employing specialized CoT prompts across five tasks: instrument recognition, action recognition, action prediction, patient data extraction, and outcome assessment, SurgRAW mitigates hallucinations through structured, domain-aware reasoning. Retrieval-Augmented Generation (RAG) is also integrated to external medical knowledge to bridge domain gaps and improve response reliability. Most importantly, a hierarchical agentic system ensures that CoT-embedded VLM agents collaborate effectively while understanding task interdependencies, with a panel discussion mechanism promotes logical consistency. To evaluate our method, we introduce SurgCoTBench, the first reasoning-based dataset with structured frame-level annotations. With comprehensive experiments, we demonstrate the effectiveness of proposed SurgRAW with 29.32% accuracy improvement over baseline VLMs on 12 robotic procedures, achieving the state-of-the-art performance and advancing explainable, trustworthy, and autonomous surgical assistance.
arxiv情報
著者 | Chang Han Low,Ziyue Wang,Tianyi Zhang,Zhitao Zeng,Zhu Zhuo,Evangelos B. Mazomenos,Yueming Jin |
発行日 | 2025-03-13 11:23:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google