Efficient Off-Policy Reinforcement Learning via Brain-Inspired Computing

要約

強化学習 (RL) は、一般的に複雑な意思決定プロセスを含む既存のスマート システムを強化する新たな機会を切り開きました。
ただし、Deep Q-Networks (DQN) などの最新の RL アルゴリズムはディープ ニューラル ネットワークに基づいているため、計算コストが高くなります。
この論文では、堅牢でリアルタイムの学習に向けて脳の特性を模倣するオフポリシー値ベースの超次元強化学習である QHD を提案します。
QHD は、未知の環境で最適なポリシーを学習するために、軽量の脳にインスピレーションを得たモデルに依存しています。
デスクトップおよび電力が制限された組み込みプラットフォームの両方で、QHD は DQN よりも大幅に優れた全体効率を達成しながら、より高いまたは同等の報酬を提供します。
QHD は、オンラインおよびリアルタイム学習に大きな可能性を秘めた高効率の強化学習にも適しています。
当社のソリューションは、品質の低下を最小限に抑えながら、DQN と比較して 12.3 倍の高速化を実現する小さなエクスペリエンス再生バッチ サイズをサポートしています。
私たちの評価では、リアルタイム学習のための QHD 機能が、DQN よりも 34.6 倍の速度向上と大幅に優れた学習品質を提供することを示しています。

要約(オリジナル)

Reinforcement Learning (RL) has opened up new opportunities to enhance existing smart systems that generally include a complex decision-making process. However, modern RL algorithms, e.g., Deep Q-Networks (DQN), are based on deep neural networks, resulting in high computational costs. In this paper, we propose QHD, an off-policy value-based Hyperdimensional Reinforcement Learning, that mimics brain properties toward robust and real-time learning. QHD relies on a lightweight brain-inspired model to learn an optimal policy in an unknown environment. On both desktop and power-limited embedded platforms, QHD achieves significantly better overall efficiency than DQN while providing higher or comparable rewards. QHD is also suitable for highly-efficient reinforcement learning with great potential for online and real-time learning. Our solution supports a small experience replay batch size that provides 12.3 times speedup compared to DQN while ensuring minimal quality loss. Our evaluation shows QHD capability for real-time learning, providing 34.6 times speedup and significantly better quality of learning than DQN.

arxiv情報

著者 Yang Ni,Danny Abraham,Mariam Issa,Yeseong Kim,Pietro Mercati,Mohsen Imani
発行日 2023-06-21 09:29:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE パーマリンク