Surgical Task Automation Using Actor-Critic Frameworks and Self-Supervised Imitation Learning

要約

手術ロボットのタスク自動化は、外科医と患者の両方に利益をもたらす可能性があるため、最近大きな注目を集めています。
強化学習 (RL) ベースのアプローチは、さまざまなタスクにおける自動化された外科的操作に対するソリューションを提供する有望な能力を実証しています。
探索の課題に対処するには、専門家のデモンストレーションを利用して、模倣学習 (IL) アプローチを通じて学習効率を高めることができます。
ただし、このようなメソッドの成功は通常、状態とアクションのラベルの両方に依存します。
残念ながら、アクション ラベルはキャプチャするのが難しい場合があり、専門知識が必要なため手動の注釈は法外に高価です。
したがって、RL の純粋な状態で構成される専門家のデモンストレーションを活用することは、依然として魅力的かつ未解決の問題です。
この研究では、未知の専門家のポリシーに従って収集された状態のみのデモンストレーションを使用して学習するというこの課題を克服する、AC-SSIL と呼ばれるアクター批判的な RL フレームワークを紹介します。
SSIL と呼ばれる自己監視型 IL 手法を採用し、デモンストレーションからクエリ状態の最近傍を取得し、アクター ネットワークのブートストラップを利用することで、デモンストレーション状態を RL パラダイムに効果的に組み込みます。
オープンソースの外科シミュレーションプラットフォームでの実験を通じて、私たちの方法がRLベースラインを超えて顕著な改善をもたらし、アクションベースのIL方法と比較して同等のパフォーマンスを示すことを実証します。これは、専門家のデモンストレーションに基づいた学習シナリオに対する私たちの方法の有効性と可能性を示唆しています。

要約(オリジナル)

Surgical robot task automation has recently attracted great attention due to its potential to benefit both surgeons and patients. Reinforcement learning (RL) based approaches have demonstrated promising ability to provide solutions to automated surgical manipulations on various tasks. To address the exploration challenge, expert demonstrations can be utilized to enhance the learning efficiency via imitation learning (IL) approaches. However, the successes of such methods normally rely on both states and action labels. Unfortunately action labels can be hard to capture or their manual annotation is prohibitively expensive owing to the requirement for expert knowledge. It therefore remains an appealing and open problem to leverage expert demonstrations composed of pure states in RL. In this work, we present an actor-critic RL framework, termed AC-SSIL, to overcome this challenge of learning with state-only demonstrations collected by following an unknown expert policy. It adopts a self-supervised IL method, dubbed SSIL, to effectively incorporate demonstrated states into RL paradigms by retrieving from demonstrates the nearest neighbours of the query state and utilizing the bootstrapping of actor networks. We showcase through experiments on an open-source surgical simulation platform that our method delivers remarkable improvements over the RL baseline and exhibits comparable performance against action based IL methods, which implies the efficacy and potential of our method for expert demonstration-guided learning scenarios.

arxiv情報

著者 Jingshuai Liu,Alain Andres,Yonghang Jiang,Xichun Luo,Wenmiao Shu,Sotirios A. Tsaftaris
発行日 2024-09-11 12:01:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク