要約
ロボット支援の低侵襲手術では、現在のインテリジェントアプリケーションで術中予測計画の欠如に対処するために視覚入力から将来の行動計画を生成する外科的行動計画(SAP)タスクを導入します。
SAPは、術中のガイダンスと自動化手順を強化する大きな可能性を示しています。
ただし、機器と行動の関係を理解したり、外科的進歩を追跡するなど、課題に直面しています。
大規模な言語モデル(LLMS)は、外科的ビデオ内容を理解することで有望ですが、主にレトロスペクティブ分析に焦点を当てているため、SAPでの予測的意思決定については目立たないままです。
データプライバシー、計算需要、モダリティ固有の制約などの課題は、重要な研究ギャップをさらに強調しています。
これらの課題に取り組むために、外科的目標の自然言語プロンプトを解釈することにより、将来の行動を予測し、テキスト応答を生成する大規模な言語モデルベースの外科的行動計画フレームワークであるLLM-SAPを紹介します。
テキストの回答は、外科教育、術中の意思決定、手順の文書化、およびスキル分析をサポートする可能性があります。
LLM-SAPは、2つの新しいモジュールを統合します。歴史的状態をモデル化するための歴史近くのフォーカスメモリモジュール(NHF-MM)と、アクションプランニングのためのプロンプトファクトリーです。
QWEN2.5やQWEN2-VLなどのモデルを使用して、構築されたChoLect50-SAPデータセットのLLM-SAPを評価し、次のアクション予測における有効性を示しています。
事前に訓練されたLLMはゼロショット設定でテストされ、LORAを使用した監視付き微調整(SFT)が実装されています。
私たちの実験は、QWEN2.5-72B-SFTがQWEN2.5-72Bを超えて19.3%高い精度で上回ることを示しています。
要約(オリジナル)
In robot-assisted minimally invasive surgery, we introduce the Surgical Action Planning (SAP) task, which generates future action plans from visual inputs to address the absence of intraoperative predictive planning in current intelligent applications. SAP shows great potential for enhancing intraoperative guidance and automating procedures. However, it faces challenges such as understanding instrument-action relationships and tracking surgical progress. Large Language Models (LLMs) show promise in understanding surgical video content but remain underexplored for predictive decision-making in SAP, as they focus mainly on retrospective analysis. Challenges like data privacy, computational demands, and modality-specific constraints further highlight significant research gaps. To tackle these challenges, we introduce LLM-SAP, a Large Language Models-based Surgical Action Planning framework that predicts future actions and generates text responses by interpreting natural language prompts of surgical goals. The text responses potentially support surgical education, intraoperative decision-making, procedure documentation, and skill analysis. LLM-SAP integrates two novel modules: the Near-History Focus Memory Module (NHF-MM) for modeling historical states and the prompts factory for action planning. We evaluate LLM-SAP on our constructed CholecT50-SAP dataset using models like Qwen2.5 and Qwen2-VL, demonstrating its effectiveness in next-action prediction. Pre-trained LLMs are tested in a zero-shot setting, and supervised fine-tuning (SFT) with LoRA is implemented. Our experiments show that Qwen2.5-72B-SFT surpasses Qwen2.5-72B with a 19.3% higher accuracy.
arxiv情報
著者 | Mengya Xu,Zhongzhen Huang,Jie Zhang,Xiaofan Zhang,Qi Dou |
発行日 | 2025-03-31 15:29:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google