Streaming Deep Reinforcement Learning Finally Works

要約

自然知能は経験を連続的なストリームとして処理し、リアルタイムで瞬間ごとに感知し、行動し、学習します。
Q ラーニングや TD などの古典的な強化学習 (RL) アルゴリズムの手法であるストリーミング学習は、最新のサンプルを保存せずに使用することで自然学習を模倣します。
このアプローチは、リソースに制約があり、通信が制限され、プライバシーに敏感なアプリケーションにも最適です。
ただし、ディープ RL では、学習者はほぼ常にバッチ更新とバッファの再生を使用するため、計算コストが高くつき、ストリーミング学習と互換性がありません。
バッチ ディープ RL の普及はそのサンプル効率に起因することがよくありますが、ストリーミング ディープ RL が存在しないより重要な理由は、頻繁に不安定になり学習に失敗することであり、これをストリーム バリアと呼びます。
この論文では、予測と制御の両方でストリームの障壁を克服し、バッチ RL のサンプル効率を一致させるためのディープ RL アルゴリズムの最初のクラスである stream-x アルゴリズムを紹介します。
Mujoco Gym、DM Control Suite、および Atari Games での実験を通じて、既存のアルゴリズムにおけるストリーム バリアと、stream-x アルゴリズム (ストリーム Q、ストリーム AC、およびストリーム TD) による安定した学習の成功を実証し、最高のモデルフリー パフォーマンスを達成します。
DM コントロールドッグ環境。
stream-x アルゴリズムの基礎には一連の共通技術があり、単一のハイパーパラメータ セットで成功を可能にし、他のアルゴリズムへの簡単な拡張を可能にして、ストリーミング RL を復活させます。

要約(オリジナル)

Natural intelligence processes experience as a continuous stream, sensing, acting, and learning moment-by-moment in real time. Streaming learning, the modus operandi of classic reinforcement learning (RL) algorithms like Q-learning and TD, mimics natural learning by using the most recent sample without storing it. This approach is also ideal for resource-constrained, communication-limited, and privacy-sensitive applications. However, in deep RL, learners almost always use batch updates and replay buffers, making them computationally expensive and incompatible with streaming learning. Although the prevalence of batch deep RL is often attributed to its sample efficiency, a more critical reason for the absence of streaming deep RL is its frequent instability and failure to learn, which we refer to as stream barrier. This paper introduces the stream-x algorithms, the first class of deep RL algorithms to overcome stream barrier for both prediction and control and match sample efficiency of batch RL. Through experiments in Mujoco Gym, DM Control Suite, and Atari Games, we demonstrate stream barrier in existing algorithms and successful stable learning with our stream-x algorithms: stream Q, stream AC, and stream TD, achieving the best model-free performance in DM Control Dog environments. A set of common techniques underlies the stream-x algorithms, enabling their success with a single set of hyperparameters and allowing for easy extension to other algorithms, thereby reviving streaming RL.

arxiv情報

著者 Mohamed Elsayed,Gautham Vasan,A. Rupam Mahmood
発行日 2024-10-18 17:00:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク