Optimizing Backward Policies in GFlowNets via Trajectory Likelihood Maximization

要約

生成フローネットワーク(GFlowNets)は、与えられた報酬関数に比例した確率でオブジェクトをサンプリングすることを学習する生成モデルのファミリーである。GFlowNetsのキーコンセプトは、2つの確率的ポリシー、すなわち、構成オブジェクトを漸進的に構築するフォワードポリシーと、それらを順次分解するバックワードポリシーを用いることである。最近の結果は、GFlowNetの学習と、特定の報酬設計を持つエントロピー正則化強化学習(RL)問題との間に密接な関係があることを示している。しかし、この関係は固定的な後方政策の設定においてのみ適用される。この問題を解決するために、我々は、エントロピー正則化マルコフ決定過程(MDP)における中間報酬上の価値関数を直接最大化する、単純な後方政策最適化アルゴリズムを導入する。RLとGFlowNetアルゴリズムの両方と組み合わせた、様々なベンチマークにおける提案アプローチの広範な実験的評価を行い、複雑な環境におけるより速い収束とモード発見を実証する。

要約(オリジナル)

Generative Flow Networks (GFlowNets) are a family of generative models that learn to sample objects with probabilities proportional to a given reward function. The key concept behind GFlowNets is the use of two stochastic policies: a forward policy, which incrementally constructs compositional objects, and a backward policy, which sequentially deconstructs them. Recent results show a close relationship between GFlowNet training and entropy-regularized reinforcement learning (RL) problems with a particular reward design. However, this connection applies only in the setting of a fixed backward policy, which might be a significant limitation. As a remedy to this problem, we introduce a simple backward policy optimization algorithm that involves direct maximization of the value function in an entropy-regularized Markov Decision Process (MDP) over intermediate rewards. We provide an extensive experimental evaluation of the proposed approach across various benchmarks in combination with both RL and GFlowNet algorithms and demonstrate its faster convergence and mode discovery in complex environments.

arxiv情報

著者 Timofei Gritsaev,Nikita Morozov,Sergey Samsonov,Daniil Tiapkin
発行日 2025-03-03 14:08:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク