Can DeepSeek Reason Like a Surgeon? An Empirical Evaluation for Vision-Language Understanding in Robotic-Assisted Surgery

要約

Deepseekシリーズは、その効率的なトレーニングパラダイムと強力な推論能力により、一般的なシーンの理解、質問(QA)、およびテキスト生成タスクの優れたパフォーマンスを実証しています。
この研究では、単一のフレーズQA、視覚QA、詳細な説明などのタスクに焦点を当てたロボット手術シナリオにおけるDeepSeekモデルの対話能力を調査します。
単一のフレーズQAタスクには、手術器具認識、アクション理解、空間的位置分析などのサブタスクがさらに含まれます。
対応するダイアログデータとともに、Endovis18やChoLect50を含む公開されているデータセットを使用して、広範な評価を実施します。
私たちの包括的な評価結果は、特定のプロンプトが提供された場合、DeepSeek-V3は手術器具および組織認識タスクでうまく機能することを示していますが、DeepSeek-V3は空間的位置分析に大きな制限を示し、外科的行動を正確に理解するのに苦労しています。
さらに、我々の調査結果は、一般的なプロンプトの下で、DeepSeek-V3には、グローバルな外科的概念を効果的に分析する能力が欠けており、外科シナリオに関する詳細な洞察を提供できないことが明らかになりました。
観察に基づいて、DeepSeek-V3は、手術固有のデータセットを微調整することなく、外科的文脈での視覚言語タスクの準備ができていないと主張します。

要約(オリジナル)

DeepSeek series have demonstrated outstanding performance in general scene understanding, question-answering (QA), and text generation tasks, owing to its efficient training paradigm and strong reasoning capabilities. In this study, we investigate the dialogue capabilities of the DeepSeek model in robotic surgery scenarios, focusing on tasks such as Single Phrase QA, Visual QA, and Detailed Description. The Single Phrase QA tasks further include sub-tasks such as surgical instrument recognition, action understanding, and spatial position analysis. We conduct extensive evaluations using publicly available datasets, including EndoVis18 and CholecT50, along with their corresponding dialogue data. Our comprehensive evaluation results indicate that, when provided with specific prompts, DeepSeek-V3 performs well in surgical instrument and tissue recognition tasks However, DeepSeek-V3 exhibits significant limitations in spatial position analysis and struggles to understand surgical actions accurately. Additionally, our findings reveal that, under general prompts, DeepSeek-V3 lacks the ability to effectively analyze global surgical concepts and fails to provide detailed insights into surgical scenarios. Based on our observations, we argue that the DeepSeek-V3 is not ready for vision-language tasks in surgical contexts without fine-tuning on surgery-specific datasets.

arxiv情報

著者 Boyi Ma,Yanguang Zhao,Jie Wang,Guankun Wang,Kun Yuan,Tong Chen,Long Bai,Hongliang Ren
発行日 2025-04-02 07:14:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.RO パーマリンク