A Plug-and-Play Fully On-the-Job Real-Time Reinforcement Learning Algorithm for a Direct-Drive Tandem-Wing Experiment Platforms Under Multiple Random Operating Conditions

要約

このような生体模倣システムのタンデム翼によって生成される非線形で不安定な空気力学的干渉は、特に複数のランダムな動作条件下で、動作制御に大きな課題をもたらします。
これらの課題に対処するために、Concerto Reinforcement Learning Extension (CRL2E) アルゴリズムが開発されました。
このプラグアンドプレイの完全オンザジョブのリアルタイム強化学習アルゴリズムには、摂動モジュールを備えた新しい物理学にヒントを得たルールベースのポリシー コンポーザー戦略と、リアルタイム制御用に最適化された軽量ネットワークが組み込まれています。
モジュール設計の性能と合理性を検証するために、6 つの困難な動作条件下で実験が実施され、7 つの異なるアルゴリズムが比較されました。
結果は、CRL2E アルゴリズムが最初の 500 ステップ内で安全で安定したトレーニングを達成し、ソフト アクター クリティカル、近接ポリシー最適化、ツイン遅延ディープ決定論的ポリシー勾配アルゴリズムと比較して追跡精度が 14 ~ 66 倍向上することを示しています。
さらに、CRL2E はさまざまなランダムな動作条件下でのパフォーマンスを大幅に向上させ、Concerto Reinforcement Learning (CRL) アルゴリズムと比較して追跡精度が 8.3% ~ 60.4% 向上しました。
CRL2E の収束速度は、Composer Perturbation のみを使用した CRL アルゴリズムより 36.11% ~ 57.64% 高速であり、Composer Perturbation と Time-Interleaved Capability Perturbation の両方を導入した場合、特に以下の条件で CRL アルゴリズムより 43.52% ~ 65.85% 高速になります。
標準の CRL は収束に苦労します。
ハードウェア テストでは、最適化された軽量ネットワーク構造が重み負荷と平均推論時間に優れ、リアルタイム制御要件を満たしていることが示されています。

要約(オリジナル)

The nonlinear and unstable aerodynamic interference generated by the tandem wings of such biomimetic systems poses substantial challenges for motion control, especially under multiple random operating conditions. To address these challenges, the Concerto Reinforcement Learning Extension (CRL2E) algorithm has been developed. This plug-and-play, fully on-the-job, real-time reinforcement learning algorithm incorporates a novel Physics-Inspired Rule-Based Policy Composer Strategy with a Perturbation Module alongside a lightweight network optimized for real-time control. To validate the performance and the rationality of the module design, experiments were conducted under six challenging operating conditions, comparing seven different algorithms. The results demonstrate that the CRL2E algorithm achieves safe and stable training within the first 500 steps, improving tracking accuracy by 14 to 66 times compared to the Soft Actor-Critic, Proximal Policy Optimization, and Twin Delayed Deep Deterministic Policy Gradient algorithms. Additionally, CRL2E significantly enhances performance under various random operating conditions, with improvements in tracking accuracy ranging from 8.3% to 60.4% compared to the Concerto Reinforcement Learning (CRL) algorithm. The convergence speed of CRL2E is 36.11% to 57.64% faster than the CRL algorithm with only the Composer Perturbation and 43.52% to 65.85% faster than the CRL algorithm when both the Composer Perturbation and Time-Interleaved Capability Perturbation are introduced, especially in conditions where the standard CRL struggles to converge. Hardware tests indicate that the optimized lightweight network structure excels in weight loading and average inference time, meeting real-time control requirements.

arxiv情報

著者 Zhang Minghao,Song Bifeng,Yang Xiaojun,Wang Liang
発行日 2024-12-20 09:39:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク