要約
この論文では、強化学習 (RL) における時間差分 (TD) 誤差に基づく新しい非線形更新ルールを調査します。
標準 RL の更新ルールでは、TD 誤差は更新の程度に線形に比例し、すべての報酬を偏りなく平等に扱うと規定されています。
一方で、最近の生物学的研究では、TD 誤差と更新の程度に非線形性があり、政策を楽観的または悲観的に偏らせることが明らかになりました。
非線形性に起因する学習におけるこのような偏りは、生物学的学習において有用かつ意図的に残された特徴であると期待されています。
したがって、この研究では、更新の程度と TD エラーの間の非線形性を活用できる理論的枠組みを検討します。
この目的を達成するために、推論フレームワークとしての制御に焦点を当てます。これは、さまざまな RL および最適制御手法を包含する一般化された定式化として知られているためです。
特に、推論として制御から標準 RL を導出する際に近似的に除外する必要がある計算不可能な非線形項を調査します。
それを分析すると、ウェーバー・フェヒナーの法則 (WFL) が見つかります。つまり、刺激の変化 (別名 TD エラー) に応じた知覚 (別名、更新の度合い) は、刺激強度 (別名、価値関数) の増加によって減衰します。
RL における WFL の有用性を数値的に明らかにするために、報酬罰フレームワークを使用し、最適性の定義を変更する実際的な実装を提案します。
この実装の分析により、2 つのユーティリティが、i) 報酬を早期に特定のレベルまで増加させること、および ii) 罰を十分に抑制することが期待できることが明らかになりました。
最終的には、シミュレーションやロボット実験を通じて、期待される有用性を調査し議論します。
その結果、WFL を使用した提案された RL アルゴリズムは、報酬を最大化するスタートアップを加速し、学習中の罰を抑制し続ける期待されるユーティリティを示します。
要約(オリジナル)
This paper investigates a novel nonlinear update rule based on temporal difference (TD) errors in reinforcement learning (RL). The update rule in the standard RL states that the TD error is linearly proportional to the degree of updates, treating all rewards equally without no bias. On the other hand, the recent biological studies revealed that there are nonlinearities in the TD error and the degree of updates, biasing policies optimistic or pessimistic. Such biases in learning due to nonlinearities are expected to be useful and intentionally leftover features in biological learning. Therefore, this research explores a theoretical framework that can leverage the nonlinearity between the degree of the update and TD errors. To this end, we focus on a control as inference framework, since it is known as a generalized formulation encompassing various RL and optimal control methods. In particular, we investigate the uncomputable nonlinear term needed to be approximately excluded in the derivation of the standard RL from control as inference. By analyzing it, Weber-Fechner law (WFL) is found, namely, perception (a.k.a. the degree of updates) in response to stimulus change (a.k.a. TD error) is attenuated by increase in the stimulus intensity (a.k.a. the value function). To numerically reveal the utilities of WFL on RL, we then propose a practical implementation using a reward-punishment framework and modifying the definition of optimality. Analysis of this implementation reveals that two utilities can be expected i) to increase rewards to a certain level early, and ii) to sufficiently suppress punishment. We finally investigate and discuss the expected utilities through simulations and robot experiments. As a result, the proposed RL algorithm with WFL shows the expected utilities that accelerate the reward-maximizing startup and continue to suppress punishments during learning.
arxiv情報
著者 | Keiichiro Takahashi,Taisuke Kobayashi,Tomoya Yamanokuchi,Takamitsu Matsubara |
発行日 | 2024-12-30 15:13:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google