Combining RL and IL using a dynamic, performance-based modulation over learning signals and its application to local planning

要約

この論文では、学習信号に対する動的でパフォーマンスベースの変調を使用して、強化学習 (RL) と模倣学習 (IL) を組み合わせる方法を提案します。
提案された方法は、ポリシーの更新に使用される逆伝播勾配とエージェントの推定値を考慮して、最適化される損失を動的に重み付けすることにより、RL と行動クローニング (IL)、またはアクション空間での修正フィードバック (インタラクティブ IL/IIL) を組み合わせます。
パフォーマンス。
このようにして、RL 損失と IL/IIL 損失は、ポリシーの更新に対する影響を均等化することによって結合されます。同時に、学習プロセスの開始時に IL 信号が優先されるように前記影響を調整し、エージェントのパフォーマンスが向上するにつれて、RL 信号が
徐々に関連性が高まり、純粋な IL/IIL から純粋な RL へのスムーズな移行が可能になります。
提案された方法は、スクリプト化されたポリシーによってオンラインで IL/IIL 信号を合成し、移動ロボットのローカル計画ポリシーを学習するために使用されます。
このタスクへの提案手法の適用に関する広範な評価がシミュレーションで実行され、サンプル効率の点で純粋な RL よりも優れていることが経験的に示されています (約 4 分の 1 の経験を利用してトレーニング環境で同じレベルのパフォーマンスを達成します)。
)、より優れたパフォーマンス指標を備えたローカル プランニング ポリシーを一貫して生成します(評価環境で平均成功率 0.959 を達成し、純粋な RL を 12.5%、純粋な IL を 13.9% 上回りました)。
さらに、取得したローカル計画ポリシーは、大きな微調整を行うことなく、現実世界に正常に展開されます。
提案された方法は、既存の RL アルゴリズムを拡張でき、オンラインで IL/IIL 信号を生成できる他の問題にも適用できます。
実際に行われた実験の一部をまとめたビデオは、https://youtu.be/mZlaXn9WGzw でご覧いただけます。

要約(オリジナル)

This paper proposes a method to combine reinforcement learning (RL) and imitation learning (IL) using a dynamic, performance-based modulation over learning signals. The proposed method combines RL and behavioral cloning (IL), or corrective feedback in the action space (interactive IL/IIL), by dynamically weighting the losses to be optimized, taking into account the backpropagated gradients used to update the policy and the agent’s estimated performance. In this manner, RL and IL/IIL losses are combined by equalizing their impact on the policy’s updates, while modulating said impact such that IL signals are prioritized at the beginning of the learning process, and as the agent’s performance improves, the RL signals become progressively more relevant, allowing for a smooth transition from pure IL/IIL to pure RL. The proposed method is used to learn local planning policies for mobile robots, synthesizing IL/IIL signals online by means of a scripted policy. An extensive evaluation of the application of the proposed method to this task is performed in simulations, and it is empirically shown that it outperforms pure RL in terms of sample efficiency (achieving the same level of performance in the training environment utilizing approximately 4 times less experiences), while consistently producing local planning policies with better performance metrics (achieving an average success rate of 0.959 in an evaluation environment, outperforming pure RL by 12.5% and pure IL by 13.9%). Furthermore, the obtained local planning policies are successfully deployed in the real world without performing any major fine tuning. The proposed method can extend existing RL algorithms, and is applicable to other problems for which generating IL/IIL signals online is feasible. A video summarizing some of the real world experiments that were conducted can be found in https://youtu.be/mZlaXn9WGzw.

arxiv情報

著者 Francisco Leiva,Javier Ruiz-del-Solar
発行日 2024-05-16 02:08:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク