Demonstration-Guided Reinforcement Learning with Efficient Exploration for Task Automation of Surgical Robot


最近の強化学習 (RL) ベースのアプローチは、外科手術の自動化にスケーラブルなソリューションを提供しますが、通常、事前知識が与えられていない場合、タスクを解決するには広範なデータ収集が必要です。
この問題は探索課題として知られており、RL エージェントに専門家のデモンストレーションを提供することで軽減できます。
この作業では、手術自動化のための専門家のデモンストレーションで探索の問題を克服することを目的とした効率的な強化学習アルゴリズムであるデモガイド探索 (DEX) を紹介します。
デモンストレーションを効果的に活用するために、私たちの方法は、より高い値で専門家のような行動を推定して生産的な相互作用を促進し、ノンパラメトリック回帰を採用して、デモンストレーション データで観察されていない状態でそのようなガイダンスを有効にします。
包括的な手術シミュレーション プラットフォームである SurRoL からの 10 ドルの手術操作タスクに関する広範な実験は、我々の方法の探索効率とタスク成功率の大幅な改善を示しています。
さらに、学習したポリシーをダ ヴィンチ リサーチ キット (dVRK) プラットフォームに展開して、実際のロボットでの有効性を示します。
コードは で入手できます。


Task automation of surgical robot has the potentials to improve surgical efficiency. Recent reinforcement learning (RL) based approaches provide scalable solutions to surgical automation, but typically require extensive data collection to solve a task if no prior knowledge is given. This issue is known as the exploration challenge, which can be alleviated by providing expert demonstrations to an RL agent. Yet, how to make effective use of demonstration data to improve exploration efficiency still remains an open challenge. In this work, we introduce Demonstration-guided EXploration (DEX), an efficient reinforcement learning algorithm that aims to overcome the exploration problem with expert demonstrations for surgical automation. To effectively exploit demonstrations, our method estimates expert-like behaviors with higher values to facilitate productive interactions, and adopts non-parametric regression to enable such guidance at states unobserved in demonstration data. Extensive experiments on $10$ surgical manipulation tasks from SurRoL, a comprehensive surgical simulation platform, demonstrate significant improvements in the exploration efficiency and task success rates of our method. Moreover, we also deploy the learned policies to the da Vinci Research Kit (dVRK) platform to show the effectiveness on the real robot. Code is available at


著者 Tao Huang,Kai Chen,Bin Li,Yun-Hui Liu,Qi Dou
発行日 2023-02-20 05:38:54+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク