要約
リアルタイム強化学習(RL)は、いくつかの課題を導入します。
まず、ポリシーは、ハードウェアの制限により、一秒あたりの固定数のアクションに制約されます。
第二に、ネットワークが依然としてアクションを計算している間、環境が変化する可能性があり、観測遅延につながります。
最初の問題は、パイプラインで部分的に対処でき、スループットが高くなり、より良いポリシーにつながる可能性があります。
ただし、2番目の問題は次のとおりです。各ニューロンが$ \ tau $の実行時間と並行して動作する場合、$ n $ -layerのフィードフォワードネットワードは$ \ tau n $の観測遅延を経験します。
レイヤーの数を減らすと、この遅延が減少する可能性がありますが、ネットワークの表現率は犠牲になります。
この作業では、遅延を最小限に抑えることとネットワークの表現力を最小限に抑えることのトレードオフを探ります。
歴史が熟成した観測と組み合わせた時間的スキップ接続を活用する理論的に動機付けられたソリューションを提示します。
いくつかのアーキテクチャを評価し、時間的スキップ接続を組み込んだものには、さまざまなニューロン実行時間、強化学習アルゴリズム、および4つのムホコタスクとすべてのミナタールゲームを含む環境で強力なパフォーマンスを実現することを示します。
さらに、並列ニューロン計算が標準のハードウェアで推論を6〜350%加速できることを示しています。
時間的なスキップ接続と並列計算の調査は、リアルタイムの設定でより効率的なRLエージェントへの道を開きます。
要約(オリジナル)
Real-time reinforcement learning (RL) introduces several challenges. First, policies are constrained to a fixed number of actions per second due to hardware limitations. Second, the environment may change while the network is still computing an action, leading to observational delay. The first issue can partly be addressed with pipelining, leading to higher throughput and potentially better policies. However, the second issue remains: if each neuron operates in parallel with an execution time of $\tau$, an $N$-layer feed-forward network experiences observation delay of $\tau N$. Reducing the number of layers can decrease this delay, but at the cost of the network’s expressivity. In this work, we explore the trade-off between minimizing delay and network’s expressivity. We present a theoretically motivated solution that leverages temporal skip connections combined with history-augmented observations. We evaluate several architectures and show that those incorporating temporal skip connections achieve strong performance across various neuron execution times, reinforcement learning algorithms, and environments, including four Mujoco tasks and all MinAtar games. Moreover, we demonstrate parallel neuron computation can accelerate inference by 6-350% on standard hardware. Our investigation into temporal skip connections and parallel computations paves the way for more efficient RL agents in real-time setting.
arxiv情報
著者 | Ivan Anokhin,Rishav Rishav,Matthew Riemer,Stephen Chung,Irina Rish,Samira Ebrahimi Kahou |
発行日 | 2025-03-30 15:30:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google