要約
強化学習 (RL) における報酬関数の選択は、システムのパフォーマンスに影響を与えるため、大きな注目を集めています。
重大な定常状態誤差の問題は、二次報酬関数が使用される場合によく発生します。
絶対値型の報酬関数はこの問題を軽減しますが、特定のシステム状態に大きな変動を引き起こし、突然の変化を引き起こす傾向があります。
この課題に応えて、この研究では積分項を導入するアプローチを提案します。
この積分項を二次タイプの報酬関数に統合することにより、RL アルゴリズムが適切に調整され、システムによる報酬履歴の考慮が強化され、その結果、定常状態誤差に関連する懸念が軽減されます。
アダプティブクルーズコントロール(ACC)および車線変更モデルの実験と性能評価を通じて、提案された方法が定常状態誤差を効果的に低減し、一部のシステム状態で重大なスパイクを引き起こさないことを検証します。
要約(オリジナル)
The selection of a reward function in Reinforcement Learning (RL) has garnered significant attention because of its impact on system performance. Issues of significant steady-state errors often manifest when quadratic reward functions are employed. Although absolute-value-type reward functions alleviate this problem, they tend to induce substantial fluctuations in specific system states, leading to abrupt changes. In response to this challenge, this study proposes an approach that introduces an integral term. By integrating this integral term into quadratic-type reward functions, the RL algorithm is adeptly tuned, augmenting the system’s consideration of reward history, and consequently alleviates concerns related to steady-state errors. Through experiments and performance evaluations on the Adaptive Cruise Control (ACC) and lane change models, we validate that the proposed method effectively diminishes steady-state errors and does not cause significant spikes in some system states.
arxiv情報
著者 | Liyao Wang,Zishun Zheng,Yuan Lin |
発行日 | 2024-04-01 02:09:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google