General-purpose foundation models for increased autonomy in robot-assisted surgery

要約

エンドツーエンドのロボット学習の主流のパラダイムは、物体を拾う、目標位置に到達するなど、単一のロボットの問題を解決するタスク固有の目標を最適化することに重点を置いています。
しかし、ロボット工学における大容量モデルに関する最近の研究では、ビデオ デモンストレーションの多様でタスクに依存しないデータセットの大規模なコレクションでトレーニングされる可能性が示されています。
これらのモデルは、特にデータ量とモデルの複雑さが増大するにつれて、目に見えない状況に対する驚くべきレベルの一般化を示しています。
データから学習する手術ロボット システムは、いくつかの理由により、他のロボット学習分野ほど早く進歩するのに苦労しています: (1) モデルをトレーニングするための既存の大規模なオープンソース データが不足している、(2) モデルをトレーニングするのが難しい
シミュレーションでは生体組織の物理的および視覚的複雑さに匹敵できないため、手術中にこれらのロボットが動作する軟体の変形をモデル化する必要がある、(3) 手術用ロボットは臨床試験でテストされる際に患者に危害を加える危険性があり、より広範な安全対策が必要である。
この展望記事は、手術ロボットのマルチモーダル、マルチタスク、視覚・言語・動作モデルの開発を通じて、ロボット支援手術におけるロボットの自律性を向上させる道筋を提供することを目的としています。
最終的に、手術ロボットは汎用モデルの恩恵を受ける独自の立場にあり、ロボット支援手術の自律性向上に向けた 3 つの誘導アクションを提供すると主張します。

要約(オリジナル)

The dominant paradigm for end-to-end robot learning focuses on optimizing task-specific objectives that solve a single robotic problem such as picking up an object or reaching a target position. However, recent work on high-capacity models in robotics has shown promise toward being trained on large collections of diverse and task-agnostic datasets of video demonstrations. These models have shown impressive levels of generalization to unseen circumstances, especially as the amount of data and the model complexity scale. Surgical robot systems that learn from data have struggled to advance as quickly as other fields of robot learning for a few reasons: (1) there is a lack of existing large-scale open-source data to train models, (2) it is challenging to model the soft-body deformations that these robots work with during surgery because simulation cannot match the physical and visual complexity of biological tissue, and (3) surgical robots risk harming patients when tested in clinical trials and require more extensive safety measures. This perspective article aims to provide a path toward increasing robot autonomy in robot-assisted surgery through the development of a multi-modal, multi-task, vision-language-action model for surgical robots. Ultimately, we argue that surgical robots are uniquely positioned to benefit from general-purpose models and provide three guiding actions toward increased autonomy in robot-assisted surgery.

arxiv情報

著者 Samuel Schmidgall,Ji Woong Kim,Alan Kuntz,Ahmed Ezzat Ghazi,Axel Krieger
発行日 2024-01-01 06:15:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, q-bio.TO パーマリンク