Maintaining Plasticity in Reinforcement Learning: A Cost-Aware Framework for Aerial Robot Control in Non-stationary Environments

要約

Rehnection Learning(RL)は、航空ロボット制御における短期トレーニングを通じて政策の可塑性を維持する能力を実証しています。
ただし、これらのポリシーは、非定常環境での長期学習に拡張された場合、可塑性の損失が示されています。
たとえば、標準的な近位ポリシー最適化(PPO)ポリシーは、長期トレーニング設定で崩壊し、大幅な制御性能劣化につながることが観察されます。
この問題に対処するために、この作業は、RLトレーニングの報酬と損失を非定常環境とバランスさせるために、レトロスペクティブコストメカニズム(Recom)を使用するコスト認識フレームワークを提案します。
報酬と損失のコスト勾配関係を使用して、フレームワークは学習率を動的に更新して、乱れた風力環境で制御ポリシーを積極的にトレーニングします。
私たちの実験結果は、私たちのフレームワークが、さまざまな風の状態で政策崩壊することなくホバリングタスクのポリシーを学んだことを示しており、PPOによるL2の正規化よりも休眠ユニットが11.29%少ないという結果が成功しています。

要約(オリジナル)

Reinforcement learning (RL) has demonstrated the ability to maintain the plasticity of the policy throughout short-term training in aerial robot control. However, these policies have been shown to loss of plasticity when extended to long-term learning in non-stationary environments. For example, the standard proximal policy optimization (PPO) policy is observed to collapse in long-term training settings and lead to significant control performance degradation. To address this problem, this work proposes a cost-aware framework that uses a retrospective cost mechanism (RECOM) to balance rewards and losses in RL training with a non-stationary environment. Using a cost gradient relation between rewards and losses, our framework dynamically updates the learning rate to actively train the control policy in a disturbed wind environment. Our experimental results show that our framework learned a policy for the hovering task without policy collapse in variable wind conditions and has a successful result of 11.29% less dormant units than L2 regularization with PPO.

arxiv情報

著者 Ali Tahir Karasahin,Ziniu Wu,Basaran Bahadir Kocer
発行日 2025-03-10 16:35:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク