要約
強化学習 (RL) と模倣学習 (IL) を通じて学習されたポリシーは、継続的な制御タスクで高度なパフォーマンスを達成する上で大きな可能性を示しています。
ただし、現実の環境では、元のトレーニング段階では予期せなかった追加の要件がある場合、トレーニング済みのポリシーをさらにカスタマイズすることが必要になることがよくあります。
新しい要件を満たすようにポリシーを微調整することは可能ですが、多くの場合、追加された要件を含む新しいデータを収集し、元のトレーニング メトリックとポリシー パラメーターにアクセスする必要があります。
対照的に、オンライン計画アルゴリズムは、追加の要件を満たすことができれば、大規模なトレーニング フェーズの必要性を排除し、元のトレーニング スキームやタスクの知識がなくてもポリシーをカスタマイズできます。
この研究では、Residual-MPPI と呼ばれる、実行時に継続制御ポリシーをカスタマイズするための汎用オンライン プランニング アルゴリズムを提案します。
少数ショットやゼロショットのオンライン設定でも、新しいパフォーマンス指標に基づいて特定の以前のポリシーをカスタマイズできます。
また、Residual-MPPI では、元のタスクに関する追加の知識がなくても、前のポリシーによって生成されたアクション配布へのアクセスのみが必要です。
私たちの実験を通じて、提案された Residual-MPPI アルゴリズムが、チャンピオン レベルのレーシング エージェントであるグランツーリスモ ソフィー (GT Sophy) 1.0 のカスタマイズを含む、少数ショット/ゼロショットのオンライン ポリシー カスタマイズ タスクを効果的に達成できることを実証しました。
カーレースシナリオ、グランツーリスモスポーツ(GTS)環境。
デモビデオは当社のウェブサイトでご覧いただけます: https://sites.google.com/view/residual-mppi
要約(オリジナル)
Policies learned through Reinforcement Learning (RL) and Imitation Learning (IL) have demonstrated significant potential in achieving advanced performance in continuous control tasks. However, in real-world environments, it is often necessary to further customize a trained policy when there are additional requirements that were unforeseen during the original training phase. It is possible to fine-tune the policy to meet the new requirements, but this often requires collecting new data with the added requirements and access to the original training metric and policy parameters. In contrast, an online planning algorithm, if capable of meeting the additional requirements, can eliminate the necessity for extensive training phases and customize the policy without knowledge of the original training scheme or task. In this work, we propose a generic online planning algorithm for customizing continuous-control policies at the execution time which we call Residual-MPPI. It is able to customize a given prior policy on new performance metrics in few-shot and even zero-shot online settings. Also, Residual-MPPI only requires access to the action distribution produced by the prior policy, without additional knowledge regarding the original task. Through our experiments, we demonstrate that the proposed Residual-MPPI algorithm can accomplish the few-shot/zero-shot online policy customization task effectively, including customizing the champion-level racing agent, Gran Turismo Sophy (GT Sophy) 1.0, in the challenging car racing scenario, Gran Turismo Sport (GTS) environment. Demo videos are available on our website: https://sites.google.com/view/residual-mppi
arxiv情報
著者 | Pengcheng Wang,Chenran Li,Catherine Weaver,Kenta Kawamoto,Masayoshi Tomizuka,Chen Tang,Wei Zhan |
発行日 | 2024-07-02 03:56:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google