要約
最近提案された生成フロー ネットワーク (GFlowNets) は、一連のアクションを通じて、与えられた報酬に比例する確率で構成的な離散オブジェクトをサンプリングするポリシーをトレーニングする方法です。
GFlowNets は問題の逐次的性質を利用し、強化学習 (RL) と類似しています。
私たちの研究は、RL と GFlowNets の間の接続を一般的なケースに拡張します。
生成フロー ネットワークを学習するタスクを、特定の報酬と正則化構造を備えたエントロピー正則化 RL 問題として効率的に再定義する方法を示します。
さらに、標準的なソフト RL アルゴリズムをいくつかの確率モデリング タスクにわたる GFlowNet トレーニングに適用することにより、この再定式化の実際的な効率を示します。
以前に報告された結果とは対照的に、エントロピー RL アプローチが確立された GFlowNet トレーニング手法と競合できることを示します。
この観点からは、強化学習の原理を生成フロー ネットワークの領域に統合するための直接的な道が開かれます。
要約(オリジナル)
The recently proposed generative flow networks (GFlowNets) are a method of training a policy to sample compositional discrete objects with probabilities proportional to a given reward via a sequence of actions. GFlowNets exploit the sequential nature of the problem, drawing parallels with reinforcement learning (RL). Our work extends the connection between RL and GFlowNets to a general case. We demonstrate how the task of learning a generative flow network can be efficiently redefined as an entropy-regularized RL problem with a specific reward and regularizer structure. Furthermore, we illustrate the practical efficiency of this reformulation by applying standard soft RL algorithms to GFlowNet training across several probabilistic modeling tasks. Contrary to previously reported results, we show that entropic RL approaches can be competitive against established GFlowNet training methods. This perspective opens a direct path for integrating reinforcement learning principles into the realm of generative flow networks.
arxiv情報
著者 | Daniil Tiapkin,Nikita Morozov,Alexey Naumov,Dmitry Vetrov |
発行日 | 2023-10-23 16:12:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google