Robust Iterative Value Conversion: Deep Reinforcement Learning for Neurochip-driven Edge Robots

要約

ニューロチップは、脳神経細胞の信号処理機構を再現し、低消費電力かつ高速にスパイキングニューラルネットワーク(SNN)を計算するデバイスです。
したがって、ニューロチップは、バッテリー容量が限られているエッジロボット用途から注目を集めています。
本論文では、ニューロチップの実装に適したSNNポリシーを獲得する深層強化学習(DRL)の実現を目指す。
DRL は複雑な関数近似を必要とするため、最も実現可能な SNN 手法の 1 つである浮動小数点 NN (FPNN) からの変換手法に焦点を当てます。
ただし、DRL では、FPNN ポリシーを更新して SNN ポリシー サンプルを収集する DRL 学習サイクルの学習サンプルを収集するために、ポリシーが更新されるたびに SNN への変換が必要です。
変換エラーが蓄積すると、SNN ポリシーのパフォーマンスが大幅に低下する可能性があります。
変換エラーの削減と変換エラーに対する堅牢性を組み込んだ DRL として、Robust Iterative Value Conversion (RIVC) を提案します。
これらを削減するために、FPNN は SNN と同じ量子化ビット数で最適化されます。
FPNN 出力は量子化によって大きく変化しません。
変換エラーを強化するために、量子化が適用される FPNN ポリシーが更新され、最適なアクションと他のアクションを選択する確率の間のギャップが増加します。
この手順により、ポリシーの最適なアクションが予期せず置き換えられるのを防ぎます。
私たちは、ニューロチップ駆動ロボット上で RIVC の有効性を検証しました。
その結果、RIVC はエッジ CPU (クアッドコア ARM Cortex-A72) に比べて消費電力が 1/15 倍少なく、計算速度が 5 倍向上したことがわかりました。
変換エラーに対する対策がなかった以前のフレームワークでは、ポリシーをトレーニングできませんでした。
実験のビデオは https://youtu.be/Q5Z0-BvK1Tc からご覧いただけます。

要約(オリジナル)

A neurochip is a device that reproduces the signal processing mechanisms of brain neurons and calculates Spiking Neural Networks (SNNs) with low power consumption and at high speed. Thus, neurochips are attracting attention from edge robot applications, which suffer from limited battery capacity. This paper aims to achieve deep reinforcement learning (DRL) that acquires SNN policies suitable for neurochip implementation. Since DRL requires a complex function approximation, we focus on conversion techniques from Floating Point NN (FPNN) because it is one of the most feasible SNN techniques. However, DRL requires conversions to SNNs for every policy update to collect the learning samples for a DRL-learning cycle, which updates the FPNN policy and collects the SNN policy samples. Accumulative conversion errors can significantly degrade the performance of the SNN policies. We propose Robust Iterative Value Conversion (RIVC) as a DRL that incorporates conversion error reduction and robustness to conversion errors. To reduce them, FPNN is optimized with the same number of quantization bits as an SNN. The FPNN output is not significantly changed by quantization. To robustify the conversion error, an FPNN policy that is applied with quantization is updated to increase the gap between the probability of selecting the optimal action and other actions. This step prevents unexpected replacements of the policy’s optimal actions. We verified RIVC’s effectiveness on a neurochip-driven robot. The results showed that RIVC consumed 1/15 times less power and increased the calculation speed by five times more than an edge CPU (quad-core ARM Cortex-A72). The previous framework with no countermeasures against conversion errors failed to train the policies. Videos from our experiments are available: https://youtu.be/Q5Z0-BvK1Tc.

arxiv情報

著者 Yuki Kadokawa,Tomohito Kodera,Yoshihisa Tsurumine,Shinya Nishimura,Takamitsu Matsubara
発行日 2024-08-23 12:13:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク