要約
大規模なデータセットの出現により、オフライン強化学習 (RL) は、実際の環境と対話する必要なく、適切な意思決定ポリシーを学習するための有望なフレームワークです。
ただし、オフライン RL では、データセットに報酬のアノテーションを付ける必要があります。これは、報酬のエンジニアリングが困難な場合や、報酬のアノテーションを取得するのに労力がかかる場合に、実際的な課題を提示します。
このホワイトペーパーでは、オフラインの軌道に報酬を割り当てるアルゴリズムである Optimal Transport Reward labeling (OTR) を、いくつかの高品質なデモとともに紹介します。
OTR の重要なアイデアは、最適なトランスポートを使用して、データセット内のラベルのない軌跡と専門家のデモンストレーションとの間の最適な配置を計算し、報酬として解釈できる類似度を取得することです。これをオフラインの RL アルゴリズムで使用して、
ポリシー。
OTR は実装が簡単で、計算効率が高いです。
D4RL ベンチマークでは、単一のデモンストレーションによる OTR が、グラウンド トゥルースの報酬を伴うオフライン RL のパフォーマンスと一貫して一致できることを示しています。
要約(オリジナル)
With the advent of large datasets, offline reinforcement learning (RL) is a promising framework for learning good decision-making policies without the need to interact with the real environment. However, offline RL requires the dataset to be reward-annotated, which presents practical challenges when reward engineering is difficult or when obtaining reward annotations is labor-intensive. In this paper, we introduce Optimal Transport Reward labeling (OTR), an algorithm that assigns rewards to offline trajectories, with a few high-quality demonstrations. OTR’s key idea is to use optimal transport to compute an optimal alignment between an unlabeled trajectory in the dataset and an expert demonstration to obtain a similarity measure that can be interpreted as a reward, which can then be used by an offline RL algorithm to learn the policy. OTR is easy to implement and computationally efficient. On D4RL benchmarks, we show that OTR with a single demonstration can consistently match the performance of offline RL with ground-truth rewards.
arxiv情報
著者 | Yicheng Luo,Zhengyao Jiang,Samuel Cohen,Edward Grefenstette,Marc Peter Deisenroth |
発行日 | 2023-03-24 12:45:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google