要約
学習におけるエネルギー効率の達成は、人工知能 (AI) コンピューティング プラットフォームにとって重要な課題です。
生物学的システムは、複雑なスキルを迅速かつ効率的に学習する驚くべき能力を発揮します。
これに触発されて、混合信号アナログ/デジタル ニューロモーフィック ハードウェア上でスパイキング ニューラル ネットワーク (SNN) を使用したモデルベース強化学習 (MBRL) のハードウェア実装を紹介します。
このアプローチは、混合信号ニューロモーフィック チップのエネルギー効率を活用し、「覚醒」フェーズと呼ばれるオンライン学習と「夢想」フェーズと呼ばれるオフライン学習を交互に行うことで高いサンプル効率を達成します。
提案されたモデルには 2 つの共生ネットワークが含まれています。1 つは現実の体験と模擬体験を組み合わせて学習するエージェント ネットワーク、もう 1 つは模擬体験を生成する学習世界モデル ネットワークです。
Atari ゲーム Pong をプレイするためにハードウェア実装をトレーニングすることでモデルを検証します。
私たちは、世界モデルなしで学習するエージェント ネットワークと夢見ることから構成されるベースラインから開始し、ゲームのプレイ方法を首尾よく学習します。
夢を見ることを組み込むことで、必要な実際のゲーム体験の数がベースラインと比べて大幅に減少します。
ネットワークは混合信号ニューロモーフィック プロセッサを使用して実装され、読み出し層はループ内のコンピューターを使用してトレーニングされますが、他の層は固定されたままです。
これらの結果は、現実世界のアプリケーションやユースケースでの迅速な学習が可能な、エネルギー効率の高いニューロモーフィック学習システムへの道を開きます。
要約(オリジナル)
Achieving energy efficiency in learning is a key challenge for artificial intelligence (AI) computing platforms. Biological systems demonstrate remarkable abilities to learn complex skills quickly and efficiently. Inspired by this, we present a hardware implementation of model-based reinforcement learning (MBRL) using spiking neural networks (SNNs) on mixed-signal analog/digital neuromorphic hardware. This approach leverages the energy efficiency of mixed-signal neuromorphic chips while achieving high sample efficiency through an alternation of online learning, referred to as the ‘awake’ phase, and offline learning, known as the ‘dreaming’ phase. The model proposed includes two symbiotic networks: an agent network that learns by combining real and simulated experiences, and a learned world model network that generates the simulated experiences. We validate the model by training the hardware implementation to play the Atari game Pong. We start from a baseline consisting of an agent network learning without a world model and dreaming, which successfully learns to play the game. By incorporating dreaming, the number of required real game experiences are reduced significantly compared to the baseline. The networks are implemented using a mixed-signal neuromorphic processor, with the readout layers trained using a computer in-the-loop, while the other layers remain fixed. These results pave the way toward energy-efficient neuromorphic learning systems capable of rapid learning in real world applications and use-cases.
arxiv情報
著者 | Ingo Blakowski,Dmitrii Zendrikov,Cristiano Capone,Giacomo Indiveri |
発行日 | 2024-05-24 15:03:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google