要約
深層強化学習 (RL) は、いくつかのドメインで有能なエージェントと制御ポリシーを生成できますが、一般に、法外に長いトレーニング時間に悩まされます。
さらに、継続的な制御の問題の場合、リアルタイム性の保証と既存のライブラリの移植性が欠如しているため、学習されたポリシーを実際の組み込みデバイスに適用できるかどうかが制限されます。
これらの課題に対処するために、深層教師あり強化学習用の依存関係のない、ヘッダーのみの純粋な C++ ライブラリである RLtools を紹介します。
RLtools は、その斬新なアーキテクチャにより、ワークステーションやラップトップ上の HPC クラスターからスマートフォン、スマートウォッチ、マイクロコントローラーに至るまで、幅広いプラットフォームで使用できます。
具体的には、RL アルゴリズムとシミュレーション環境が緊密に統合されているため、RLtools は、他の一般的な RL フレームワークよりも最大 76 倍の速さで一般的な RL 問題を解決できます。
また、さまざまなマイクロコントローラーのセットで推論のベンチマークを行い、ほとんどの場合、最適化された実装がはるかに高速であることを示します。
最後に、RLtools により、ディープ RL アルゴリズムをマイクロコントローラー上で直接トレーニングする初めてのデモンストレーションが可能になり、Tiny Reinforcement Learning (TinyRL) の分野が誕生しました。
ソース コード、ドキュメント、ライブ デモは、https://rl.tools のプロジェクト ページから入手できます。
要約(オリジナル)
Deep Reinforcement Learning (RL) can yield capable agents and control policies in several domains but is commonly plagued by prohibitively long training times. Additionally, in the case of continuous control problems, the applicability of learned policies on real-world embedded devices is limited due to the lack of real-time guarantees and portability of existing libraries. To address these challenges, we present RLtools, a dependency-free, header-only, pure C++ library for deep supervised and reinforcement learning. Its novel architecture allows RLtools to be used on a wide variety of platforms, from HPC clusters over workstations and laptops to smartphones, smartwatches, and microcontrollers. Specifically, due to the tight integration of the RL algorithms with simulation environments, RLtools can solve popular RL problems up to 76 times faster than other popular RL frameworks. We also benchmark the inference on a diverse set of microcontrollers and show that in most cases our optimized implementation is by far the fastest. Finally, RLtools enables the first-ever demonstration of training a deep RL algorithm directly on a microcontroller, giving rise to the field of Tiny Reinforcement Learning (TinyRL). The source code as well as documentation and live demos are available through our project page at https://rl.tools.
arxiv情報
著者 | Jonas Eschmann,Dario Albani,Giuseppe Loianno |
発行日 | 2024-02-25 21:13:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google