ConcertoRL: An Innovative Time-Interleaved Reinforcement Learning Approach for Enhanced Control in Direct-Drive Tandem-Wing Vehicles

要約

タンデム翼の影響下にある昆虫規模の直接駆動実験プラットフォームの制御問題において、既存の強化学習モデルが直面する主な課題は、探索プロセスにおける安全性の制限と、継続的な訓練プロセスの安定性です。
制御精度を向上させ、オンライン トレーニング プロセスを安定させるために、ConcertoRL アルゴリズムを導入します。これは 2 つの主要な革新で構成されます。1 つは、初期段階での制御精度を向上させることを目的とした、古典的なコントローラーと強化学習ベースのコントローラーを織り交ぜる時間インターリーブ メカニズムです。
コンポーザーは、オンライン トレーニング プロセスの安定性を確保するために、以前の学習から得た経験を整理します。
この論文では一連の実験を行った。
まず、タイム インターリーブ メカニズムを組み込んだ実験では、強化学習の強化を行わないシナリオと比べてパフォーマンスが約 70% 大幅に向上し、制御周波数が 2 倍になったリファレンス コントローラーと比較して効率が 50% 向上したことが実証されています。
これらの結果は、各部分の合計を超える相乗効果を生み出すアルゴリズムの能力を強調しています。

要約(オリジナル)

In control problems for insect-scale direct-drive experimental platforms under tandem wing influence, the primary challenge facing existing reinforcement learning models is their limited safety in the exploration process and the stability of the continuous training process. We introduce the ConcertoRL algorithm to enhance control precision and stabilize the online training process, which consists of two main innovations: a time-interleaved mechanism to interweave classical controllers with reinforcement learning-based controllers aiming to improve control precision in the initial stages, a policy composer organizes the experience gained from previous learning to ensure the stability of the online training process. This paper conducts a series of experiments. First, experiments incorporating the time-interleaved mechanism demonstrate a substantial performance boost of approximately 70% over scenarios without reinforcement learning enhancements and a 50% increase in efficiency compared to reference controllers with doubled control frequencies. These results highlight the algorithm’s ability to create a synergistic effect that exceeds the sum of its parts.

arxiv情報

著者 Minghao Zhang,Bifeng Song,Changhao Chen,Xinyu Lang
発行日 2024-05-22 13:53:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T40, cs.AI, cs.RO, I.2.9 パーマリンク