要約
Generative Flow Networks (GFlowNets) は、確率的ポリシーを学習して、指定された正規化されていない報酬分布から構成オブジェクトを順次生成する償却サンプラーです。
これらは、報酬の高いオブジェクトの多様なセットを生成できます。これは、科学的発見のタスクにおいて重要な考慮事項です。
ただし、通常、GFlowNet は特定の外部報酬関数からトレーニングされるため、事前トレーニングの力を活用し、教師なしの方法で GFlowNet をトレーニングして、下流のタスクに効率的に適応させる方法については、依然として重要な未解決の課題が残されています。
さまざまな分野での教師なし事前トレーニングの最近の成功に触発され、GFlowNets の報酬なし事前トレーニングのための新しいアプローチを紹介します。
トレーニングを自己教師付き問題として組み立てることにより、候補空間を探索することを学習する結果条件付き GFlowNet (OC-GFN) を提案します。
具体的には、OC-GFN は、強化学習における目標条件付きポリシーに似た、目標を定めた結果に到達する方法を学習します。
事前トレーニングされた OC-GFN モデルにより、下流タスクの新しい報酬関数からサンプリングできるポリシーの直接抽出が可能になることを示します。
それにもかかわらず、下流のタスク固有の報酬に OC-GFN を適応させると、起こり得る結果に対する手に負えない疎外が伴います。
我々は、効率的な微調整を可能にする償却予測変数を学習することで、この周縁化を近似する新しい方法を提案します。
広範な実験結果により、私たちのアプローチの有効性が検証され、OC-GFNの事前トレーニングの有効性と、下流のタスクに迅速に適応し、より効率的にモードを発見する能力が実証されています。
この研究は、GFlowNets のコンテキストにおける事前トレーニング戦略をさらに探求するための基礎として機能する可能性があります。
要約(オリジナル)
Generative Flow Networks (GFlowNets) are amortized samplers that learn stochastic policies to sequentially generate compositional objects from a given unnormalized reward distribution. They can generate diverse sets of high-reward objects, which is an important consideration in scientific discovery tasks. However, as they are typically trained from a given extrinsic reward function, it remains an important open challenge about how to leverage the power of pre-training and train GFlowNets in an unsupervised fashion for efficient adaptation to downstream tasks. Inspired by recent successes of unsupervised pre-training in various domains, we introduce a novel approach for reward-free pre-training of GFlowNets. By framing the training as a self-supervised problem, we propose an outcome-conditioned GFlowNet (OC-GFN) that learns to explore the candidate space. Specifically, OC-GFN learns to reach any targeted outcomes, akin to goal-conditioned policies in reinforcement learning. We show that the pre-trained OC-GFN model can allow for a direct extraction of a policy capable of sampling from any new reward functions in downstream tasks. Nonetheless, adapting OC-GFN on a downstream task-specific reward involves an intractable marginalization over possible outcomes. We propose a novel way to approximate this marginalization by learning an amortized predictor enabling efficient fine-tuning. Extensive experimental results validate the efficacy of our approach, demonstrating the effectiveness of pre-training the OC-GFN, and its ability to swiftly adapt to downstream tasks and discover modes more efficiently. This work may serve as a foundation for further exploration of pre-training strategies in the context of GFlowNets.
arxiv情報
著者 | Ling Pan,Moksh Jain,Kanika Madan,Yoshua Bengio |
発行日 | 2023-10-05 09:53:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google