Leveraging Optimal Transport for Enhanced Offline Reinforcement Learning in Surgical Robotic Environments

要約

ほとんどの強化学習 (RL) 手法は伝統的にアクティブ ラーニング設定で研究されており、エージェントは環境と直接対話し、アクションの結果を観察し、試行錯誤を通じて学習します。
ただし、部分的に訓練されたエージェントが実際の物理システムと対話できるようにするには、高コスト、安​​全上のリスク、継続的な監視の必要性など、重大な課題が生じます。
オフライン RL は、既存のデータセットを活用し、リソースを大量に消費するリアルタイムの対話の必要性を軽減することで、これらのコストと安全性の懸念に対処します。
それにもかかわらず、これらのデータセットに報酬の注釈を注意深く付ける必要があるという大きな課題があります。
このペーパーでは、少数の高品質な専門家のデモンストレーションを使用して、オフラインの軌跡に報酬を割り当てるように設計された革新的なアルゴリズムである最適輸送報酬 (OTR) ラベル付けを紹介します。
OTR の中心原理には、データセットからのラベルのない軌道と専門家のデモンストレーションの間の最適な位置合わせを計算するための最適輸送 (OT) の採用が含まれます。
このアライメントにより、報酬シグナルとして効果的に解釈される類似性の尺度が得られます。
オフライン RL アルゴリズムは、これらの報酬信号を利用してポリシーを学習できます。
このアプローチにより、手作りの報酬の必要性が回避され、政策学習に膨大なデータセットを利用できる可能性が解き放たれます。
手術ロボットの学習用に調整された SurRoL シミュレーション プラットフォームを活用して、データセットを生成し、それを使用して OTR アルゴリズムを使用してポリシーをトレーニングします。
さまざまなドメインで OTR の有効性を実証することで、その多用途性と、幅広い分野にわたる RL の導入を促進する可能性を強調します。

要約(オリジナル)

Most Reinforcement Learning (RL) methods are traditionally studied in an active learning setting, where agents directly interact with their environments, observe action outcomes, and learn through trial and error. However, allowing partially trained agents to interact with real physical systems poses significant challenges, including high costs, safety risks, and the need for constant supervision. Offline RL addresses these cost and safety concerns by leveraging existing datasets and reducing the need for resource-intensive real-time interactions. Nevertheless, a substantial challenge lies in the demand for these datasets to be meticulously annotated with rewards. In this paper, we introduce Optimal Transport Reward (OTR) labelling, an innovative algorithm designed to assign rewards to offline trajectories, using a small number of high-quality expert demonstrations. The core principle of OTR involves employing Optimal Transport (OT) to calculate an optimal alignment between an unlabeled trajectory from the dataset and an expert demonstration. This alignment yields a similarity measure that is effectively interpreted as a reward signal. An offline RL algorithm can then utilize these reward signals to learn a policy. This approach circumvents the need for handcrafted rewards, unlocking the potential to harness vast datasets for policy learning. Leveraging the SurRoL simulation platform tailored for surgical robot learning, we generate datasets and employ them to train policies using the OTR algorithm. By demonstrating the efficacy of OTR in a different domain, we emphasize its versatility and its potential to expedite RL deployment across a wide range of fields.

arxiv情報

著者 Maryam Zare,Parham M. Kebria,Abbas Khosravi
発行日 2023-10-13 03:39:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, stat.ML パーマリンク