Towards Robust Automation of Surgical Systems via Digital Twin-based Scene Representations from Foundation Models


大規模言語モデルベース (LLM) エージェントは、複雑なアクション シーケンスを計画する能力により、堅牢な身体化インテリジェンスの強力な実現手段として浮上しています。
したがって、LLM エージェントの緊急機能を手術タスク計画に活用するには、視覚入力から環境の詳細なシーン表現を導き出すために、同様に強力で堅牢な認識アルゴリズムを開発する必要があります。
これまでの研究は主に、LLM ベースのタスク計画を可能にすることに重点を置いていましたが、ベンチトップ実験のニーズを満たすためにシンプルだが厳しく制限された知覚ソリューションを採用しましたが、制約の少ない設定に拡張するための重要な柔軟性が欠けていました。
この研究では、代替の知覚アプローチ、つまり、最近のビジョン基盤モデルの説得力のあるパフォーマンスとすぐに使える一般化を利用した、デジタル ツイン ベースの機械知覚アプローチを提案します。
デジタル ツイン ベースのシーン表現と計画用の LLM エージェントを dVRK プラットフォームと統合して、身体化されたインテリジェンス システムを開発し、ペグの移動とガーゼの取得タスクを実行する際の堅牢性を評価します。
説得力のあるパフォーマンスにもかかわらず、この作品はデジタル ツイン ベースのシーン表現の統合に向けた最初のステップにすぎません。


Large language model-based (LLM) agents are emerging as a powerful enabler of robust embodied intelligence due to their capability of planning complex action sequences. Sound planning ability is necessary for robust automation in many task domains, but especially in surgical automation. These agents rely on a highly detailed natural language representation of the scene. Thus, to leverage the emergent capabilities of LLM agents for surgical task planning, developing similarly powerful and robust perception algorithms is necessary to derive a detailed scene representation of the environment from visual input. Previous research has focused primarily on enabling LLM-based task planning while adopting simple yet severely limited perception solutions to meet the needs for bench-top experiments but lack the critical flexibility to scale to less constrained settings. In this work, we propose an alternate perception approach — a digital twin-based machine perception approach that capitalizes on the convincing performance and out-of-the-box generalization of recent vision foundation models. Integrating our digital twin-based scene representation and LLM agent for planning with the dVRK platform, we develop an embodied intelligence system and evaluate its robustness in performing peg transfer and gauze retrieval tasks. Our approach shows strong task performance and generalizability to varied environment settings. Despite convincing performance, this work is merely a first step towards the integration of digital twin-based scene representations. Future studies are necessary for the realization of a comprehensive digital twin framework to improve the interpretability and generalizability of embodied intelligence in surgery.


著者 Hao Ding,Lalithkumar Seenivasan,Hongchao Shu,Grayson Byrd,Han Zhang,Pu Xiao,Juan Antonio Barragan,Russell H. Taylor,Peter Kazanzides,Mathias Unberath
発行日 2024-09-24 15:08:03+00:00
