要約
生成フローネットワーク(Gflownet)は、エージェントが確率論的ポリシーを学習し、フロー機能を非正規化された報酬関数に比例してオブジェクトをサンプリングする確率的フレームワークです。
多くの最近の研究では、GflownetsとMaximum Entropy(Maxent)RLとの関係を調査しました。これは、エントロピー正規化された目的を学習することにより、RLエージェントの標準的な目的を変更します。
ただし、GflownetsとStandard RLの関係は、順次の意思決定の性質に固有の類似性にもかかわらず、ほとんど未開拓のままです。
Gflownetsは、特殊なフローマッチング目標を通じて多様なソリューションを発見できますが、それらを接続することで、確立されたRL原則を通じて実装を簡素化し、RLの多様なソリューション発見機能を改善できます。
この論文では、Gflownetsと1つのRLの最も基本的なコンポーネントであるポリシー評価との根本的なつながりを明らかにすることにより、このギャップを埋めます。
驚くべきことに、均一なポリシーの評価から得られた値関数は、特定の構造条件下でのフローイテレーションのレンズを介したGflownetsのフロー関数と密接に関連していることがわかります。
これらの洞察に基づいて、修正されたランダムポリシー評価(RPE)アルゴリズムを導入します。これは、これらのケースで固定されたランダムポリシーを単純に評価し、新しい視点を提供することに基づいてGflownetsと同じ報酬マッチング効果を達成します。
大規模なベンチマーク全体の経験的結果は、RPEが以前のアプローチと比較して競争結果を達成することを示しており、以前に見落とされていた(非標準)RLとGflownetsの間のつながりに光を当てています。
要約(オリジナル)
The Generative Flow Network (GFlowNet) is a probabilistic framework in which an agent learns a stochastic policy and flow functions to sample objects proportionally to an unnormalized reward function. A number of recent works explored connections between GFlowNets and maximum entropy (MaxEnt) RL, which modifies the standard objective of RL agents by learning an entropy-regularized objective. However, the relationship between GFlowNets and standard RL remains largely unexplored, despite the inherent similarities in their sequential decision-making nature. While GFlowNets can discover diverse solutions through specialized flow-matching objectives, connecting them can simplify their implementation through established RL principles and improve RL’s diverse solution discovery capabilities. In this paper, we bridge this gap by revealing a fundamental connection between GFlowNets and one RL’s most basic components — policy evaluation. Surprisingly, we find that the value function obtained from evaluating a uniform policy is closely associated with the flow functions in GFlowNets through the lens of flow iteration under certain structural conditions. Building upon these insights, we introduce a rectified random policy evaluation (RPE) algorithm, which achieves the same reward-matching effect as GFlowNets based on simply evaluating a fixed random policy in these cases, offering a new perspective. Empirical results across extensive benchmarks demonstrate that RPE achieves competitive results compared to previous approaches, shedding light on the previously overlooked connection between (non-MaxEnt) RL and GFlowNets.
arxiv情報
著者 | Haoran He,Emmanuel Bengio,Qingpeng Cai,Ling Pan |
発行日 | 2025-06-02 11:26:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google