Upside Down Reinforcement Learning with Policy Generators

要約

逆さまの補強学習(UDRL)は、コマンド条件付きポリシーの学習に焦点を当てた強化学習問題を解決するための有望な枠組みです。
この作業では、UDRLを、深いニューラルネットワークポリシーのコマンドコンディショニングジェネレーターを学習するタスクに拡張します。
これは、高速重量プログラマーのバリアントであるHyperNetWorksを使用して達成します。これは、コマンド固有の重量マトリックスへの望ましい期待リターンを表す入力コマンドをデコードすることを学びます。
ポリシージェネレーター(UDRLPG)を使用した逆さまの補強学習と呼ばれるこの方法は、ジェネレーターの重みを更新するための評価者または批評家の必要性を削除することにより、同等の技術を合理化します。
評価者を持たないことによって引き起こされる最後のリターンの増加した分散に対抗するために、その中の絶対ポリシー数からバッファーのサンプリング確率を分離します。これは、単純な重み付け戦略とともに、アルゴリズムの経験的収束を改善します。
既存のアルゴリズムと比較して、UDRLPGは競争力のあるパフォーマンスと高いリターンを達成し、より複雑なアーキテクチャを上回ることがあります。
私たちの実験は、訓練されたジェネレーターが一般化して、目に見えないリターンがゼロショットを達成するポリシーを作成できることを示しています。
提案された方法は、高度なマルチモーダル機能の学習に関連する課題のいくつかを緩和するのに効果的であると思われます。
全体として、UDRLPGはRLの経験的サンプル効率を高める上での有望な前進を表していると考えています。
udrlpgの完全な実装は、https://github.com/jacopod/udrlpg_で公開されています

要約(オリジナル)

Upside Down Reinforcement Learning (UDRL) is a promising framework for solving reinforcement learning problems which focuses on learning command-conditioned policies. In this work, we extend UDRL to the task of learning a command-conditioned generator of deep neural network policies. We accomplish this using Hypernetworks – a variant of Fast Weight Programmers, which learn to decode input commands representing a desired expected return into command-specific weight matrices. Our method, dubbed Upside Down Reinforcement Learning with Policy Generators (UDRLPG), streamlines comparable techniques by removing the need for an evaluator or critic to update the weights of the generator. To counteract the increased variance in last returns caused by not having an evaluator, we decouple the sampling probability of the buffer from the absolute number of policies in it, which, together with a simple weighting strategy, improves the empirical convergence of the algorithm. Compared with existing algorithms, UDRLPG achieves competitive performance and high returns, sometimes outperforming more complex architectures. Our experiments show that a trained generator can generalize to create policies that achieve unseen returns zero-shot. The proposed method appears to be effective in mitigating some of the challenges associated with learning highly multimodal functions. Altogether, we believe that UDRLPG represents a promising step forward in achieving greater empirical sample efficiency in RL. A full implementation of UDRLPG is publicly available at https://github.com/JacopoD/udrlpg_

arxiv情報

著者 Jacopo Di Ventura,Dylan R. Ashley,Vincent Herrmann,Francesco Faccio,Jürgen Schmidhuber
発行日 2025-01-28 13:05:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.AI, cs.LG, I.2.6 パーマリンク