要約
この論文で提案されている動的強化学習(動的RL)は、各瞬間にアクター(アクション生成ニューラルネットワーク)出力の代わりにシステムのダイナミクスを直接制御し、静的から動的に補強学習(RL)の主要な定性的変化をもたらします。
。
俳優は当初、環境を備えたループを通じてカオスダイナミクスを生成するように設計されており、エージェントが柔軟で決定論的な探索を実行できるようにします。
Dynamic RLは、「感度」と呼ばれるローカルインデックスを使用してグローバルシステムのダイナミクスを制御します。これは、各ニューロンの処理を介して、入力近隣が対応する出力近傍にどれだけ縮小するか、または拡張するかを示します。
感度調整学習(SAL)はダイナミクスの過度の収束を防ぎますが、感度制御補強学習(SRL)がそれらを調整します。
負のTDエラーがあります。
ダイナミックRLは、批評家に適用する一方で、俳優批評家のRLアーキテクチャの俳優にのみ適用されました。
2つの動的タスクでテストされ、外部探査ノイズや時間を経て後方計算なしで効果的に機能しました。
さらに、いくつかの問題は残っていますが、新しい環境への優れた適応性を示しました。
著者は「探索」と「思考」との類似点を描いて、「探索は学習を通じて思考に成長する」と仮定し、このRLは、既存の大規模なテキストデータから再構築できないインスピレーションを含む、思考の出現の重要なテクニックであると考えています。
最後に、著者は、議論を奨励することを目指して、この研究が潜在的に致命的なリスクのために進むべきではないという議論を提示します。
要約(オリジナル)
Dynamic Reinforcement Learning (Dynamic RL), proposed in this paper, directly controls system dynamics, instead of the actor (action-generating neural network) outputs at each moment, bringing about a major qualitative shift in reinforcement learning (RL) from static to dynamic. The actor is initially designed to generate chaotic dynamics through the loop with its environment, enabling the agent to perform flexible and deterministic exploration. Dynamic RL controls global system dynamics using a local index called ‘sensitivity,’ which indicates how much the input neighborhood contracts or expands into the corresponding output neighborhood through each neuron’s processing. While sensitivity adjustment learning (SAL) prevents excessive convergence of the dynamics, sensitivity-controlled reinforcement learning (SRL) adjusts them — to converge more to improve reproducibility around better state transitions with positive TD error and to diverge more to enhance exploration around worse transitions with negative TD error. Dynamic RL was applied only to the actor in an Actor-Critic RL architecture while applying it to the critic remains a challenge. It was tested on two dynamic tasks and functioned effectively without external exploration noise or backward computation through time. Moreover, it exhibited excellent adaptability to new environments, although some problems remain. Drawing parallels between ‘exploration’ and ‘thinking,’ the author hypothesizes that ‘exploration grows into thinking through learning’ and believes this RL could be a key technique for the emergence of thinking, including inspiration that cannot be reconstructed from massive existing text data. Finally, despite being presumptuous, the author presents the argument that this research should not proceed due to its potentially fatal risks, aiming to encourage discussion.
arxiv情報
著者 | Katsunari Shibata |
発行日 | 2025-02-14 14:50:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google