要約
報酬の指定は強化学習において最も扱いにくい問題の 1 つであり、実際には通常、面倒な手作業によるエンジニアリングが必要になります。
この課題に取り組むための有望なアプローチの 1 つは、政策学習に既存の専門家のビデオ デモンストレーションを採用することです。
最近の研究の中には、たった 1 人または少数の専門家のビデオ デモンストレーションからロボット ポリシーを学習する方法を調査したものもあります。
たとえば、Optimal Transport (OT) による報酬のラベル付けは、ロボットの軌道と専門家のデモンストレーションの間の整合性を測定することで代理報酬を生成する効果的な戦略であることが示されています。
しかし、これまでの研究では、OT 報酬が時間的順序情報に対して不変であり、報酬信号に余分なノイズをもたらす可能性があることがほとんど見落とされていました。
この問題に対処するために、この論文では、より正確な OT ベースのプロキシ報酬を学習するための時間的順序情報を組み込む、Temporal Optimal Transport (TemporalOT) 報酬を導入します。
メタワールド ベンチマーク タスクに関する広範な実験により、提案された手法の有効性が検証されています。
コードはhttps://github.com/fuyw/TemporalOTから入手できます。
要約(オリジナル)
Reward specification is one of the most tricky problems in Reinforcement Learning, which usually requires tedious hand engineering in practice. One promising approach to tackle this challenge is to adopt existing expert video demonstrations for policy learning. Some recent work investigates how to learn robot policies from only a single/few expert video demonstrations. For example, reward labeling via Optimal Transport (OT) has been shown to be an effective strategy to generate a proxy reward by measuring the alignment between the robot trajectory and the expert demonstrations. However, previous work mostly overlooks that the OT reward is invariant to temporal order information, which could bring extra noise to the reward signal. To address this issue, in this paper, we introduce the Temporal Optimal Transport (TemporalOT) reward to incorporate temporal order information for learning a more accurate OT-based proxy reward. Extensive experiments on the Meta-world benchmark tasks validate the efficacy of the proposed method. Code is available at: https://github.com/fuyw/TemporalOT
arxiv情報
著者 | Yuwei Fu,Haichao Zhang,Di Wu,Wei Xu,Benoit Boulet |
発行日 | 2024-10-29 07:00:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google