Memory-efficient Reinforcement Learning with Value-based Knowledge Consolidation

要約

タイトル:価値ベースの知識統合によるメモリ効率の高い強化学習

要約:

– 人工ニューラルネットワークは一般的な関数近似に有望ですが、非独立または非同一分布データに対して訓練することは困難です。
– Experience replay bufferは、大きなバッファに経験を保存し、後でトレーニングに使用して、忘却を減らしてサンプル効率を向上させるために、ディープ強化学習の標準的なコンポーネントです。
– しかし、大きなReplay bufferは、制限されたメモリ容量を持つオンボードおよびエッジデバイスにとって、重いメモリ負荷を引き起こします。
– 私たちは、この問題を緩和するため、Deep Q-Networkのアルゴリズムに基づいたメモリ効率の高い強化学習アルゴリズムを提案しています。
– 私たちのアルゴリズムは、ターゲットQ-NetworkからカレントQ-Networkへの知識の統合により、忘却を減らし、高いサンプル効率を維持します。
– 基礎となるメソッドと比較して、私たちのアルゴリズムは、特徴ベースのタスクと画像ベースのタスクの両方で、大きなExperience replay bufferの負担を軽減しながら、同等または優れたパフォーマンスを発揮します。

要約(オリジナル)

Artificial neural networks are promising for general function approximation but challenging to train on non-independent or non-identically distributed data due to catastrophic forgetting. The experience replay buffer, a standard component in deep reinforcement learning, is often used to reduce forgetting and improve sample efficiency by storing experiences in a large buffer and using them for training later. However, a large replay buffer results in a heavy memory burden, especially for onboard and edge devices with limited memory capacities. We propose memory-efficient reinforcement learning algorithms based on the deep Q-network algorithm to alleviate this problem. Our algorithms reduce forgetting and maintain high sample efficiency by consolidating knowledge from the target Q-network to the current Q-network. Compared to baseline methods, our algorithms achieve comparable or better performance in both feature-based and image-based tasks while easing the burden of large experience replay buffers.

arxiv情報

著者 Qingfeng Lan,Yangchen Pan,Jun Luo,A. Rupam Mahmood
発行日 2023-04-10 18:53:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク