Reward-Punishment Reinforcement Learning with Maximum Entropy

要約

長期政策エントロピーの最適化を報酬罰強化学習目標に統合する「soft Deep MaxPain」(softDMP) アルゴリズムを紹介します。
私たちの動機は、従来の「最大」および「最小」演算子を超えて、アクション値の更新に利用される演算子のよりスムーズなバリエーションを促進することであり、目標はサンプルの効率とロバスト性を強化することです。
また、以前の Deep MaxPain メソッドで発生した 2 つの未解決の問題にも対処します。
まず、罰アクション値から導出された、否定された (「反転」) 痛み探索サブポリシーが、どのように「min」オペレーターと連携して罰モジュールを効果的に学習するか、および SoftDMP のスムーズな学習オペレーターがどのように提供するかを調査します。
「反転」トリックについての洞察。
第二に、統一行動ポリシーにおける「反転」サブポリシー(痛み回避サブポリシー)の関与から生じる矛盾を軽減するための罰モジュールを学習するためのデータ収集の課題に取り組みます。
2 つの離散マルコフ決定プロセス (MDP) 環境で最初の問題を経験的に調査し、DMP アプローチの重要な進歩とハード オペレーターに対するソフト処理の必要性を解明します。
2 番目の問題では、痛みを求めるサブポリシーと目標を達成するサブポリシーの合計に対する痛みを求めるサブポリシーの比率に基づいた確率的分類子を提案します。
この分類子は、報酬と罰のアクション値関数をそれぞれ更新するために、ロールアウトを別々のリプレイ バッファーに割り当てます。
私たちのフレームワークは、ROS Gazebo シミュレーション下での Turtlebot 3 の迷路ナビゲーション タスクで優れたパフォーマンスを実証します。

要約(オリジナル)

We introduce the “soft Deep MaxPain” (softDMP) algorithm, which integrates the optimization of long-term policy entropy into reward-punishment reinforcement learning objectives. Our motivation is to facilitate a smoother variation of operators utilized in the updating of action values beyond traditional “max” and “min” operators, where the goal is enhancing sample efficiency and robustness. We also address two unresolved issues from the previous Deep MaxPain method. Firstly, we investigate how the negated (“flipped”) pain-seeking sub-policy, derived from the punishment action value, collaborates with the “min” operator to effectively learn the punishment module and how softDMP’s smooth learning operator provides insights into the “flipping” trick. Secondly, we tackle the challenge of data collection for learning the punishment module to mitigate inconsistencies arising from the involvement of the “flipped” sub-policy (pain-avoidance sub-policy) in the unified behavior policy. We empirically explore the first issue in two discrete Markov Decision Process (MDP) environments, elucidating the crucial advancements of the DMP approach and the necessity for soft treatments on the hard operators. For the second issue, we propose a probabilistic classifier based on the ratio of the pain-seeking sub-policy to the sum of the pain-seeking and goal-reaching sub-policies. This classifier assigns roll-outs to separate replay buffers for updating reward and punishment action-value functions, respectively. Our framework demonstrates superior performance in Turtlebot 3’s maze navigation tasks under the ROS Gazebo simulation.

arxiv情報

著者 Jiexin Wang,Eiji Uchibe
発行日 2024-05-20 05:05:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク