Mitigating Suboptimality of Deterministic Policy Gradients in Complex Q-functions

要約

強化学習では、DDPG や TD3 などのオフポリシー アクタークリティカル アプローチは、決定論的なポリシー勾配に基づいています。
ここで、Q 関数はオフポリシー環境データからトレーニングされ、アクター (ポリシー) は勾配上昇によって Q 関数を最大化するようにトレーニングされます。
器用な操作や制限された移動などの複雑なタスクでは、Q 値が動作の複雑な関数であり、いくつかの局所最適値または不連続性があることが観察されます。
これにより、勾配上昇を通過するのが困難になり、アクターが局所最適値で行き詰まる傾向があります。
これに対処するために、2 つの単純な洞察を組み合わせた新しいアクター アーキテクチャを導入します。(i) 複数のアクターを使用し、Q 値を最大化するアクションを評価する。(ii) 勾配で最適化するのがより簡単な Q 関数のサロゲートを学習する。
ベースのメソッド。
制限された移動、器用な操作、大規模な離散アクション空間レコメンダー システムなどのタスクを評価し、アクターが最適なアクションをより頻繁に見つけ、代替アクター アーキテクチャよりも優れたパフォーマンスを発揮することを示します。

要約(オリジナル)

In reinforcement learning, off-policy actor-critic approaches like DDPG and TD3 are based on the deterministic policy gradient. Herein, the Q-function is trained from off-policy environment data and the actor (policy) is trained to maximize the Q-function via gradient ascent. We observe that in complex tasks like dexterous manipulation and restricted locomotion, the Q-value is a complex function of action, having several local optima or discontinuities. This poses a challenge for gradient ascent to traverse and makes the actor prone to get stuck at local optima. To address this, we introduce a new actor architecture that combines two simple insights: (i) use multiple actors and evaluate the Q-value maximizing action, and (ii) learn surrogates to the Q-function that are simpler to optimize with gradient-based methods. We evaluate tasks such as restricted locomotion, dexterous manipulation, and large discrete-action space recommender systems and show that our actor finds optimal actions more frequently and outperforms alternate actor architectures.

arxiv情報

著者 Ayush Jain,Norio Kosaka,Xinhu Li,Kyung-Min Kim,Erdem Bıyık,Joseph J. Lim
発行日 2024-10-15 17:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, stat.ML パーマリンク