要約
強化学習手法は自動スキル習得のための強力なフレームワークを提供しますが、ロボット工学などの分野における実践的な学習ベースの制御問題に対しては、多くの場合、模倣学習がより便利でアクセスしやすい代替手段を提供します。
特に、DAgger などの対話型模倣学習手法は、ナイーブな行動クローニングを悩ませる分布シフトの課題に対処するための修正データを収集するためにオンラインで介入するよう、ほぼ最適な専門家に依頼し、理論と実践の両方で優れたパフォーマンスを享受できます。
手動で指定した報酬関数や完全な強化学習法のその他のコンポーネントを必要とせずに済みます。
この論文では、インタラクティブな模倣学習の仮定と似ているが、それよりも潜在的にさらに実用的な仮定の下で、オフポリシー強化学習がどのようにパフォーマンスの向上を可能にするのかを探ります。
提案手法は、ユーザ介入信号そのものを報酬とする強化学習を用いる。
これにより、インタラクティブな模倣学習における介入する専門家は最適に近いはずであるという前提が緩和され、アルゴリズムは潜在的な次善の人間の専門家よりも改善する行動を学習できるようになります。
また、RL メソッドと DAgger を分析するための統合フレームワークも提供します。
これについて、両方の方法の準最適ギャップの漸近分析と、この方法の非漸近サンプル複雑さの限界を示します。
次に、挑戦的な高次元連続制御シミュレーション ベンチマークと現実世界のロボット ビジョン ベースの操作タスクに関する手法を評価します。
結果は、特に介入する専門家が最適ではない場合に、さまざまなタスクにわたって DAgger のようなアプローチよりも優れたパフォーマンスを発揮することを示しています。
コードとビデオはプロジェクトの Web サイト rlif-page.github.io で見つけることができます。
要約(オリジナル)
Although reinforcement learning methods offer a powerful framework for automatic skill acquisition, for practical learning-based control problems in domains such as robotics, imitation learning often provides a more convenient and accessible alternative. In particular, an interactive imitation learning method such as DAgger, which queries a near-optimal expert to intervene online to collect correction data for addressing the distributional shift challenges that afflict na\’ive behavioral cloning, can enjoy good performance both in theory and practice without requiring manually specified reward functions and other components of full reinforcement learning methods. In this paper, we explore how off-policy reinforcement learning can enable improved performance under assumptions that are similar but potentially even more practical than those of interactive imitation learning. Our proposed method uses reinforcement learning with user intervention signals themselves as rewards. This relaxes the assumption that intervening experts in interactive imitation learning should be near-optimal and enables the algorithm to learn behaviors that improve over the potential suboptimal human expert. We also provide a unified framework to analyze our RL method and DAgger; for which we present the asymptotic analysis of the suboptimal gap for both methods as well as the non-asymptotic sample complexity bound of our method. We then evaluate our method on challenging high-dimensional continuous control simulation benchmarks as well as real-world robotic vision-based manipulation tasks. The results show that it strongly outperforms DAgger-like approaches across the different tasks, especially when the intervening experts are suboptimal. Code and videos can be found on the project website: rlif-page.github.io
arxiv情報
著者 | Jianlan Luo,Perry Dong,Yuexiang Zhai,Yi Ma,Sergey Levine |
発行日 | 2023-11-21 21:05:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google