Memory-efficient Reinforcement Learning with Knowledge Consolidation

要約

人工ニューラル ネットワークは、一般的な関数の近似には有望ですが、壊滅的な忘却が原因で、独立していない、または同一に分散されていないデータでトレーニングすることは困難です。
深層強化学習の標準コンポーネントであるエクスペリエンス リプレイ バッファーは、経験を大きなバッファーに格納し、後でトレーニングに使用することで、忘却を減らし、サンプル効率を向上させるためによく使用されます。
ただし、リプレイ バッファが大きいと、特にメモリ容量が限られているオンボード デバイスやエッジ デバイスの場合、メモリの負担が大きくなります。
この問題を軽減するために、ディープ Q ネットワーク アルゴリズムに基づくメモリ効率の高い強化学習アルゴリズムを提案します。
当社のアルゴリズムは、対象の Q ネットワークから現在の Q ネットワークに知識を統合することで、忘却を減らし、高いサンプル効率を維持します。
ベースラインの方法と比較して、私たちのアルゴリズムは、特徴ベースのタスクと画像ベースのタスクの両方で同等またはそれ以上のパフォーマンスを達成しながら、大きなエクスペリエンス リプレイ バッファーの負担を軽減します。

要約(オリジナル)

Artificial neural networks are promising for general function approximation but challenging to train on non-independent or non-identically distributed data due to catastrophic forgetting. The experience replay buffer, a standard component in deep reinforcement learning, is often used to reduce forgetting and improve sample efficiency by storing experiences in a large buffer and using them for training later. However, a large replay buffer results in a heavy memory burden, especially for onboard and edge devices with limited memory capacities. We propose memory-efficient reinforcement learning algorithms based on the deep Q-network algorithm to alleviate this problem. Our algorithms reduce forgetting and maintain high sample efficiency by consolidating knowledge from the target Q-network to the current Q-network. Compared to baseline methods, our algorithms achieve comparable or better performance in both feature-based and image-based tasks while easing the burden of large experience replay buffers.

arxiv情報

著者 Qingfeng Lan,Yangchen Pan,Jun Luo,A. Rupam Mahmood
発行日 2023-02-22 17:51:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク