要約
大規模言語モデルベース (LLM) エージェントは、複雑なアクション シーケンスを計画する能力により、堅牢な身体化インテリジェンスの強力な実現手段として浮上しています。
多くのタスク領域、特に外科の自動化において堅牢な自動化を実現するには、適切な計画能力が必要です。
これらのエージェントは、シーンの非常に詳細な自然言語表現に依存しています。
したがって、LLM エージェントの緊急機能を手術タスク計画に活用するには、視覚入力から環境の詳細なシーン表現を導き出すために、同様に強力で堅牢な認識アルゴリズムを開発する必要があります。
これまでの研究は主に、LLM ベースのタスク計画を可能にすることに重点を置いていましたが、ベンチトップ実験のニーズを満たすためにシンプルだが厳しく制限された知覚ソリューションを採用しましたが、制約の少ない設定に拡張するための重要な柔軟性が欠けていました。
この研究では、代替の知覚アプローチ、つまり、最近のビジョン基盤モデルの説得力のあるパフォーマンスとすぐに使える一般化を利用した、デジタル ツイン ベースの機械知覚アプローチを提案します。
デジタル ツイン ベースのシーン表現と計画用の LLM エージェントを dVRK プラットフォームと統合して、身体化されたインテリジェンス システムを開発し、ペグの移動とガーゼの取得タスクを実行する際の堅牢性を評価します。
私たちのアプローチは、強力なタスクパフォーマンスと、さまざまな環境設定に対する汎用性を示しています。
説得力のあるパフォーマンスにもかかわらず、この作品はデジタル ツイン ベースのシーン表現の統合に向けた最初のステップにすぎません。
手術における身体化されたインテリジェンスの解釈可能性と一般化可能性を向上させるための包括的なデジタルツインフレームワークの実現には、今後の研究が必要です。
要約(オリジナル)
Large language model-based (LLM) agents are emerging as a powerful enabler of robust embodied intelligence due to their capability of planning complex action sequences. Sound planning ability is necessary for robust automation in many task domains, but especially in surgical automation. These agents rely on a highly detailed natural language representation of the scene. Thus, to leverage the emergent capabilities of LLM agents for surgical task planning, developing similarly powerful and robust perception algorithms is necessary to derive a detailed scene representation of the environment from visual input. Previous research has focused primarily on enabling LLM-based task planning while adopting simple yet severely limited perception solutions to meet the needs for bench-top experiments but lack the critical flexibility to scale to less constrained settings. In this work, we propose an alternate perception approach — a digital twin-based machine perception approach that capitalizes on the convincing performance and out-of-the-box generalization of recent vision foundation models. Integrating our digital twin-based scene representation and LLM agent for planning with the dVRK platform, we develop an embodied intelligence system and evaluate its robustness in performing peg transfer and gauze retrieval tasks. Our approach shows strong task performance and generalizability to varied environment settings. Despite convincing performance, this work is merely a first step towards the integration of digital twin-based scene representations. Future studies are necessary for the realization of a comprehensive digital twin framework to improve the interpretability and generalizability of embodied intelligence in surgery.
arxiv情報
著者 | Hao Ding,Lalithkumar Seenivasan,Hongchao Shu,Grayson Byrd,Han Zhang,Pu Xiao,Juan Antonio Barragan,Russell H. Taylor,Peter Kazanzides,Mathias Unberath |
発行日 | 2024-09-24 15:08:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google