Reward Learning from Suboptimal Demonstrations with Applications in Surgical Electrocautery

要約

デモンストレーションからの学習(LfD)技術によってロボット手術を自動化することは、非常に困難です。
これは、外科的作業では、物理的オブジェクトの複雑な相互作用を伴う一連の意思決定プロセスが含まれることが多く、間違いに対する許容度が低いためです。
これまでの研究では、すべてのデモンストレーションが完全に観察可能で最適であると想定されていましたが、現実の世界では実用的ではない可能性があります。
この論文では、部分視点の点群観測から構成される限られた量のランク付けされた次善のデモンストレーションからロバストな報酬関数を学習する、サンプル効率の高い方法を紹介します。
次に、強化学習 (RL) を使用して学習した報酬関数を最適化することでポリシーを学習します。
学習済み報酬関数を使用してポリシーを取得する方が、純粋な模倣学習よりも堅牢であることを示します。
私たちは、物理的な外科用電気焼灼タスクにアプローチを適用し、提供されたデモンストレーションが最適ではなく、観察が高次元の点群である場合でも、私たちの方法がうまく機能することを実証します。

要約(オリジナル)

Automating robotic surgery via learning from demonstration (LfD) techniques is extremely challenging. This is because surgical tasks often involve sequential decision-making processes with complex interactions of physical objects and have low tolerance for mistakes. Prior works assume that all demonstrations are fully observable and optimal, which might not be practical in the real world. This paper introduces a sample-efficient method that learns a robust reward function from a limited amount of ranked suboptimal demonstrations consisting of partial-view point cloud observations. The method then learns a policy by optimizing the learned reward function using reinforcement learning (RL). We show that using a learned reward function to obtain a policy is more robust than pure imitation learning. We apply our approach on a physical surgical electrocautery task and demonstrate that our method can perform well even when the provided demonstrations are suboptimal and the observations are high-dimensional point clouds.

arxiv情報

著者 Zohre Karimi,Shing-Hei Ho,Bao Thach,Alan Kuntz,Daniel S. Brown
発行日 2024-04-10 17:40:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク