Maximum Diffusion Reinforcement Learning

要約

データは独立しており、同一に分散されているという前提が、すべての機械学習の基礎となります。
データがエージェント エクスペリエンスから順次収集される場合、強化学習の場合のように、この仮定は一般に当てはまりません。
ここでは、エルゴードプロセスの統計力学を利用することでこれらの制限を克服する方法を導き出し、これを最大拡散強化学習と呼んでいます。
エージェントのエクスペリエンスを無相関化することで、エージェントがどのように初期化されたかに関係なく、ワンショットの導入で継続的に学習できることが証明されています。
さらに、私たちのアプローチがよく知られた最大エントロピー手法を一般化することを証明し、一般的なベンチマーク全体で最先端のパフォーマンスを確実に上回ることを示します。
物理学、学習、制御を組み合わせた私たちの成果は、移動ロボットや自動運転車などの強化学習エージェントにおける、より透明性と信頼性の高い意思決定への道を開きます。

要約(オリジナル)

The assumption that data are independent and identically distributed underpins all machine learning. When data are collected sequentially from agent experiences this assumption does not generally hold, as in reinforcement learning. Here, we derive a method that overcomes these limitations by exploiting the statistical mechanics of ergodic processes, which we term maximum diffusion reinforcement learning. By decorrelating agent experiences, our approach provably enables agents to learn continually in single-shot deployments regardless of how they are initialized. Moreover, we prove our approach generalizes well-known maximum entropy techniques, and show that it robustly exceeds state-of-the-art performance across popular benchmarks. Our results at the nexus of physics, learning, and control pave the way towards more transparent and reliable decision-making in reinforcement learning agents, such as locomoting robots and self-driving cars.

arxiv情報

著者 Thomas A. Berrueta,Allison Pinosky,Todd D. Murphey
発行日 2023-09-26 22:14:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.stat-mech, cs.AI, cs.LG, cs.RO パーマリンク