Efficient Imitation Without Demonstrations via Value-Penalized Auxiliary Control from Examples

要約

成功例から学ぶことは、強化学習への魅力的なアプローチですが、特に複雑なタスクや長期にわたるタスクの場合、困難な探索問題が生じます。
この研究では、単純な補助タスクの例を追加することにより、例ベースの制御での探索を大幅に改善するアルゴリズムである、例からの値ペナルティ付き補助制御 (VPACE) を導入します。
たとえば、操作タスクには、物体に手を伸ばしたり、掴んだり、持ち上げたりする補助的な例が含まれる場合があります。
スケジュールされた補助制御をサンプルベースの学習に単純に適用すると、値の過大評価とパフォーマンスの低下につながる可能性があることを示します。
成功レベルを超える値のペナルティを使用して問題を解決します。
シミュレートされたロボット環境と実際のロボット環境の両方にわたって、私たちのアプローチは、制限された値の推定値を維持しながら、困難なタスクの学習効率を大幅に向上させることを示します。
例ベース学習、逆強化学習、探索ボーナスに対する既存のアプローチと比較します。
予備的な結果は、VPACE が完全な軌道や真のまばらな報酬を使用するより一般的なアプローチよりも効率的に学習する可能性があることも示唆しています。
ビデオ、コード、データセット: https://papers.starslab.ca/vpace。

要約(オリジナル)

Learning from examples of success is an ap pealing approach to reinforcement learning but it presents a challenging exploration problem, especially for complex or long-horizon tasks. This work introduces value-penalized auxiliary control from examples (VPACE), an algorithm that significantly improves exploration in example-based control by adding examples of simple auxiliary tasks. For instance, a manipulation task may have auxiliary examples of an object being reached for, grasped, or lifted. We show that the na\'{i}ve application of scheduled auxiliary control to example-based learning can lead to value overestimation and poor performance. We resolve the problem with an above-success-level value penalty. Across both simulated and real robotic environments, we show that our approach substantially improves learning efficiency for challenging tasks, while maintaining bounded value estimates. We compare with existing approaches to example-based learning, inverse reinforcement learning, and an exploration bonus. Preliminary results also suggest that VPACE may learn more efficiently than the more common approaches of using full trajectories or true sparse rewards. Videos, code, and datasets: https://papers.starslab.ca/vpace.

arxiv情報

著者 Trevor Ablett,Bryan Chan,Jayce Haoran Wang,Jonathan Kelly
発行日 2024-09-09 02:01:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク