Value-Informed Skill Chaining for Policy Learning of Long-Horizon Tasks with Surgical Robot

要約

強化学習は、ポリシー探索の課題により、長期間にわたって複数のステップを必要とする長期にわたる手術ロボットのタスクを解決するのに依然として苦労しています。
最近の手法では、長期タスクを探索の負担を軽減するために複数のサブタスクに分解し、サブタスクのポリシーを時間的に接続して長期タスク全体を完了するスキルチェーンによってこの問題に対処しようとしています。
ただし、手術ロボットのシナリオでは、すべてのサブタスク ポリシーをスムーズに接続することは困難です。
すべての状態が 2 つの隣接するサブタスクを接続するのに等しく適しているわけではありません。
前のサブタスクの望ましくない終了状態により、現在のサブタスク ポリシーが不安定になり、実行が失敗する可能性があります。
この研究では、長期にわたる外科ロボットタスクのための新しい強化学習フレームワークである価値情報に基づいたスキルチェーン (ViSkill) を紹介します。
中心的な考え方は、以下のすべてのサブタスク ポリシーを開始するのにどの最終状態が適しているかを区別することです。
この目標を達成するために、特定の状態でタスク全体の期待成功確率を推定する状態値関数を導入します。
この値関数に基づいて、連鎖ポリシーが学習され、サブタスク ポリシーに最高値の状態で終了するように指示され、後続のすべてのポリシーがタスクを達成するために接続される可能性が高くなります。
我々は、包括的な手術シミュレーション プラットフォームである SurRoL の 3 つの複雑な手術ロボット タスクに対するこの手法の有効性を実証し、高いタスク成功率と実行効率を達成します。
コードは $\href{https://github.com/med-air/ViSkill}{\text{https://github.com/med-air/ViSkill}}$ で入手できます。

要約(オリジナル)

Reinforcement learning is still struggling with solving long-horizon surgical robot tasks which involve multiple steps over an extended duration of time due to the policy exploration challenge. Recent methods try to tackle this problem by skill chaining, in which the long-horizon task is decomposed into multiple subtasks for easing the exploration burden and subtask policies are temporally connected to complete the whole long-horizon task. However, smoothly connecting all subtask policies is difficult for surgical robot scenarios. Not all states are equally suitable for connecting two adjacent subtasks. An undesired terminate state of the previous subtask would make the current subtask policy unstable and result in a failed execution. In this work, we introduce value-informed skill chaining (ViSkill), a novel reinforcement learning framework for long-horizon surgical robot tasks. The core idea is to distinguish which terminal state is suitable for starting all the following subtask policies. To achieve this target, we introduce a state value function that estimates the expected success probability of the entire task given a state. Based on this value function, a chaining policy is learned to instruct subtask policies to terminate at the state with the highest value so that all subsequent policies are more likely to be connected for accomplishing the task. We demonstrate the effectiveness of our method on three complex surgical robot tasks from SurRoL, a comprehensive surgical simulation platform, achieving high task success rates and execution efficiency. Code is available at $\href{https://github.com/med-air/ViSkill}{\text{https://github.com/med-air/ViSkill}}$.

arxiv情報

著者 Tao Huang,Kai Chen,Wang Wei,Jianan Li,Yonghao Long,Qi Dou
発行日 2023-07-31 08:55:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク