Stable Gradients for Stable Learning at Scale in Deep Reinforcement Learning

要約

深い補強学習ネットワークのスケーリングは困難であり、多くの場合、パフォーマンスが低下しますが、この障害モードの根本原因はよく理解されていません。
いくつかの最近の作品はこれに対処するためのメカニズムを提案していますが、それらはしばしば複雑であり、この困難の根底にある原因を強調することができません。
この作業では、一連の経験的分析を実施します。これは、非定常性と勾配病理学の組み合わせが、次の構造の選択により、規模の課題の根底にあることを示唆しています。
勾配の流れを安定させる一連の直接的な介入を提案し、さまざまなネットワークの深さと幅にわたって堅牢なパフォーマンスを可能にします。
私たちの介入は、実装が簡単であり、確立されたアルゴリズムと互換性があり、大規模でも強力なパフォーマンスを可能にする効果的なメカニズムをもたらします。
さまざまなエージェントやスイートの環境に関する調査結果を検証します。

要約(オリジナル)

Scaling deep reinforcement learning networks is challenging and often results in degraded performance, yet the root causes of this failure mode remain poorly understood. Several recent works have proposed mechanisms to address this, but they are often complex and fail to highlight the causes underlying this difficulty. In this work, we conduct a series of empirical analyses which suggest that the combination of non-stationarity with gradient pathologies, due to suboptimal architectural choices, underlie the challenges of scale. We propose a series of direct interventions that stabilize gradient flow, enabling robust performance across a range of network depths and widths. Our interventions are simple to implement and compatible with well-established algorithms, and result in an effective mechanism that enables strong performance even at large scales. We validate our findings on a variety of agents and suites of environments.

arxiv情報

著者 Roger Creus Castanyer,Johan Obando-Ceron,Lu Li,Pierre-Luc Bacon,Glen Berseth,Aaron Courville,Pablo Samuel Castro
発行日 2025-06-18 15:17:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク