Residual-MPPI: Online Policy Customization for Continuous Control

要約

強化学習(RL)や模倣学習(IL)によって学習されたポリシーは、連続的な制御タスクにおいて高度なパフォーマンスを達成する上で大きな可能性を示している。しかし、実世界の環境では、最初の学習段階で予測できなかった追加要件が発生した場合、学習したポリシーをさらにカスタマイズする必要が生じることが多い。新たな要求を満たすためにポリシーを微調整することは可能であるが、そのためには、追加された要求を含む新たなデータを収集し、元のトレーニングメトリックとポリシーパラメータにアクセスする必要があることが多い。これに対して、オンラインプランニングアルゴリズムは、追加要求を満たすことができれば、大規模なトレーニングフェーズの必要性を排除し、元のトレーニングスキームやタスクを知ることなくポリシーをカスタマイズすることができる。本研究では、Residual-MPPIと呼ぶ、実行時に連続制御ポリシーをカスタマイズするための汎用オンライン計画アルゴリズムを提案する。Residual-MPPIは、数ショット、さらにはゼロショットのオンライン設定において、新たな性能指標に基づいて与えられた事前方針をカスタマイズすることができる。また、Residual-MPPIは、元のタスクに関する追加的な知識なしに、事前ポリシーによって生成されたアクション分布へのアクセスのみを必要とする。実験を通して、提案するResidual-MPPIアルゴリズムが、チャンピオンレベルのレーシングエージェントであるGran Turismo Sophy (GT Sophy) 1.0を、困難なカーレースシナリオであるGran Turismo Sport (GTS)環境でカスタマイズすることを含め、数ショット/ゼロショットオンライン政策カスタマイズタスクを効果的に達成できることを実証する。デモビデオは弊社ウェブサイト https://sites.google.com/view/residual-mppi でご覧いただけます。

要約(オリジナル)

Policies learned through Reinforcement Learning (RL) and Imitation Learning (IL) have demonstrated significant potential in achieving advanced performance in continuous control tasks. However, in real-world environments, it is often necessary to further customize a trained policy when there are additional requirements that were unforeseen during the original training phase. It is possible to fine-tune the policy to meet the new requirements, but this often requires collecting new data with the added requirements and access to the original training metric and policy parameters. In contrast, an online planning algorithm, if capable of meeting the additional requirements, can eliminate the necessity for extensive training phases and customize the policy without knowledge of the original training scheme or task. In this work, we propose a generic online planning algorithm for customizing continuous-control policies at the execution time which we call Residual-MPPI. It is able to customize a given prior policy on new performance metrics in few-shot and even zero-shot online settings. Also, Residual-MPPI only requires access to the action distribution produced by the prior policy, without additional knowledge regarding the original task. Through our experiments, we demonstrate that the proposed Residual-MPPI algorithm can accomplish the few-shot/zero-shot online policy customization task effectively, including customizing the champion-level racing agent, Gran Turismo Sophy (GT Sophy) 1.0, in the challenging car racing scenario, Gran Turismo Sport (GTS) environment. Demo videos are available on our website: https://sites.google.com/view/residual-mppi

arxiv情報

著者 Pengcheng Wang,Chenran Li,Catherine Weaver,Kenta Kawamoto,Masayoshi Tomizuka,Chen Tang,Wei Zhan
発行日 2024-07-03 11:00:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO パーマリンク