Dynamic Backtracking in GFlowNet: Enhancing Decision Steps with Reward-Dependent Adjustment Mechanisms

要約

Generative Flow Networks (GFlowNets) は、マルコフ フローを前提とした確率モデルであり、特定の償却アルゴリズムを使用して、生体分子、化学物質などを含む構成物質を生成する確率的ポリシーを学習します。
高性能生化学分子の生成において恐るべき能力を実証する GFlowNet は、科学物質の発見を加速し、従来の物質発見に固有の時間と労力とコストのかかる欠点を効果的に回避します。
ただし、これまでの研究では探索的な経験を蓄積するのに苦労することが多く、広大なサンプリング空間内で見当識を失いがちでした。
LS-GFN など、この問題に対処する試みはローカルな貪欲な検索に限定されており、より広範なグローバルな調整が欠けています。
このペーパーでは、GFlowNet の新しいバリアントである動的バックトラッキング GFN (DB-GFN) を紹介します。これは、報酬ベースの動的バックトラッキング メカニズムを通じて意思決定ステップの適応性を強化します。
DB-GFN を使用すると、現在の状態の報酬値に応じてネットワーク構築プロセス中にバックトラッキングできるため、探索プロセス中に不利な決定を修正し、代替経路を探索できます。
生化学分子と遺伝物質配列の生成タスクに適用された DB-GFN は、サンプルの品質、探索サンプルの量、トレーニングの収束速度の点で、既存の GFlowNet モデルや従来の強化学習手法を上回っています。
さらに、DB-GFN の直交性は、他の戦略と統合してより効率的な検索パフォーマンスを達成することが期待できる、将来の GFN ネットワーク改善のための強力なツールとしての可能性を示唆しています。

要約(オリジナル)

Generative Flow Networks (GFlowNets) are probabilistic models predicated on Markov flows, employing specific amortization algorithms to learn stochastic policies that generate compositional substances including biomolecules, chemical materials, and more. Demonstrating formidable prowess in generating high-performance biochemical molecules, GFlowNets accelerate the discovery of scientific substances, effectively circumventing the time-consuming, labor-intensive, and costly shortcomings intrinsic to conventional material discovery. However, previous work often struggles to accumulate exploratory experience and is prone to becoming disoriented within expansive sampling spaces. Attempts to address this issue, such as LS-GFN, are limited to local greedy searches and lack broader global adjustments. This paper introduces a novel GFlowNet variant, the Dynamic Backtracking GFN (DB-GFN), which enhances the adaptability of decision-making steps through a reward-based dynamic backtracking mechanism. DB-GFN permits backtracking during the network construction process according to the current state’s reward value, thus correcting disadvantageous decisions and exploring alternative pathways during the exploration process. Applied to generative tasks of biochemical molecules and genetic material sequences, DB-GFN surpasses existing GFlowNet models and traditional reinforcement learning methods in terms of sample quality, exploration sample quantity, and training convergence speed. Furthermore, the orthogonal nature of DB-GFN suggests its potential as a powerful tool for future improvements in GFN networks, with the promise of integrating with other strategies to achieve more efficient search performance.

arxiv情報

著者 Shuai Guo,Jielei Chu,Lei Zhu,Tianrui Li
発行日 2024-04-08 14:52:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク