Massively Scaling Explicit Policy-conditioned Value Functions

要約

明示的なポリシーコンディショニングされたバリュー関数(EPVFS)のスケーリング戦略を導入し、挑戦的な継続制御タスクのパフォーマンスを大幅に改善します。
EPVFSは、ポリシーパラメーターに明示的に条件付けられた値関数V({\ theta})を学習し、ポリシーのパラメーターに直接勾配ベースの更新を可能にします。
ただし、EPVFは、ポリシーパラメーター空間における無制限のパラメーターの成長と効率的な探索に苦労しています。
これらの問題に対処するために、GPUベースのシミュレータ、大きなバッチサイズ、重量クリッピング、スケーリングされた大型の大規模な並列化を利用します。
私たちの結果は、EPVFをスケーリングしてカスタムアリ環境などの複雑なタスクを解決し、近位政策最適化(PPO)やソフトアクタークリティティックなどの最先端のディープ補強学習(DRL)ベースラインと競合できることを示しています。
(SAC)。
さらに、以前の作業と専門のニューラルネットワークアーキテクチャのアクションベースのポリシーパラメーター表現を調査して、以前にDRLのコンテキストで使用されていなかった重量空間機能を効率的に処理します。

要約(オリジナル)

We introduce a scaling strategy for Explicit Policy-Conditioned Value Functions (EPVFs) that significantly improves performance on challenging continuous-control tasks. EPVFs learn a value function V({\theta}) that is explicitly conditioned on the policy parameters, enabling direct gradient-based updates to the parameters of any policy. However, EPVFs at scale struggle with unrestricted parameter growth and efficient exploration in the policy parameter space. To address these issues, we utilize massive parallelization with GPU-based simulators, big batch sizes, weight clipping and scaled peturbations. Our results show that EPVFs can be scaled to solve complex tasks, such as a custom Ant environment, and can compete with state-of-the-art Deep Reinforcement Learning (DRL) baselines like Proximal Policy Optimization (PPO) and Soft Actor-Critic (SAC). We further explore action-based policy parameter representations from previous work and specialized neural network architectures to efficiently handle weight-space features, which have not been used in the context of DRL before.

arxiv情報

著者 Nico Bohlinger,Jan Peters
発行日 2025-02-17 16:02:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク