要約
深層強化学習では、状態とアクションの品質を評価するための価値関数を推定することが不可欠です。
値関数は、暗黙的にガウス誤差分布を仮定する最小二乗法を使用してトレーニングされることがよくあります。
しかし、最近の研究では、値関数をトレーニングするための誤差分布は、ベルマン演算子の特性により歪むことが多く、最小二乗法における正規誤差分布の暗黙の仮定に違反することが示唆されています。
これに対処するために、私たちは対称 Q 学習と呼ばれる手法を提案しました。この手法では、ゼロ平均分布から生成された合成ノイズを目標値に加算して、ガウス誤差分布を生成します。
MuJoCo の連続制御ベンチマーク タスクで提案手法を評価しました。
誤差分布の歪みを軽減することで、最先端の強化学習法のサンプル効率を向上させました。
要約(オリジナル)
In deep reinforcement learning, estimating the value function to evaluate the quality of states and actions is essential. The value function is often trained using the least squares method, which implicitly assumes a Gaussian error distribution. However, a recent study suggested that the error distribution for training the value function is often skewed because of the properties of the Bellman operator, and violates the implicit assumption of normal error distribution in the least squares method. To address this, we proposed a method called Symmetric Q-learning, in which the synthetic noise generated from a zero-mean distribution is added to the target values to generate a Gaussian error distribution. We evaluated the proposed method on continuous control benchmark tasks in MuJoCo. It improved the sample efficiency of a state-of-the-art reinforcement learning method by reducing the skewness of the error distribution.
arxiv情報
著者 | Motoki Omura,Takayuki Osa,Yusuke Mukuta,Tatsuya Harada |
発行日 | 2024-03-12 14:49:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google