要約
大規模な言語モデル(LLMS)の台頭は、ロボット工学と自動化の研究に影響を与えています。
LLMSを一般的なロボットタスクに統合することで進歩がなされていますが、推論、説明、安全性、安全性などの重要な要因が最重要である手術などのより具体的なドメインでの採用において顕著なボイドが持続します。
環境の変化を推論し、適応する能力を伴うロボット手術の自律性を達成することは、依然として重要な課題です。
この作業では、自律的な血液吸引のためのロボット支援手術におけるマルチモーダルLLM統合を提案します。
推論と優先順位付けは、高レベルのタスク計画LLMに委任され、モーションプランニングと実行は低レベルのディープ補強学習モデルによって処理され、2つのコンポーネント間に分散型エージェンシーが作成されます。
外科手術は非常に動的であり、予期せぬ状況に遭遇する可能性があるため、意思決定に影響を与えるために血栓と活動的な出血が導入されました。
結果は、マルチモーダルLLMを高レベルの推論ユニットとして使用すると、これらの手術の複雑さを説明して、ロボット支援の手術で以前に達成できなかったレベルの推論を達成できることを示しました。
これらの発見は、ロボット支援の手術におけるコンテキストの理解と意思決定を大幅に強化するマルチモーダルLLMの可能性を示しており、自律外科システムへの一歩を示しています。
要約(オリジナル)
The rise of Large Language Models (LLMs) has impacted research in robotics and automation. While progress has been made in integrating LLMs into general robotics tasks, a noticeable void persists in their adoption in more specific domains such as surgery, where critical factors such as reasoning, explainability, and safety are paramount. Achieving autonomy in robotic surgery, which entails the ability to reason and adapt to changes in the environment, remains a significant challenge. In this work, we propose a multi-modal LLM integration in robot-assisted surgery for autonomous blood suction. The reasoning and prioritization are delegated to the higher-level task-planning LLM, and the motion planning and execution are handled by the lower-level deep reinforcement learning model, creating a distributed agency between the two components. As surgical operations are highly dynamic and may encounter unforeseen circumstances, blood clots and active bleeding were introduced to influence decision-making. Results showed that using a multi-modal LLM as a higher-level reasoning unit can account for these surgical complexities to achieve a level of reasoning previously unattainable in robot-assisted surgeries. These findings demonstrate the potential of multi-modal LLMs to significantly enhance contextual understanding and decision-making in robotic-assisted surgeries, marking a step toward autonomous surgical systems.
arxiv情報
著者 | Sadra Zargarzadeh,Maryam Mirzaei,Yafei Ou,Mahdi Tavakoli |
発行日 | 2025-01-29 06:13:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google