Thompson sampling for improved exploration in GFlowNets

要約

生成フロー ネットワーク (GFlowNets) は、構成オブジェクトにわたる分布からのサンプリングを、学習可能なアクション ポリシーを伴う逐次的な意思決定問題として扱う、償却変分推論アルゴリズムです。
変分限界を最適化する他の階層サンプリングのアルゴリズムとは異なり、GFlowNet アルゴリズムはオフポリシーで安定して実行できるため、ターゲット分布のモードを発見するのに有利です。
行動ポリシーの選択におけるこの柔軟性にもかかわらず、トレーニングのための軌道を効率的に選択する最適な方法はまだ体系的に検討されていません。
この論文では、トレーニングのための軌道の選択をアクティブ ラーニングの問題として捉え、多腕バンディットの手法にヒントを得たベイズ手法を使用してそれにアプローチします。
提案されたアルゴリズムであるトンプソン サンプリング GFlowNets (TS-GFN) は、ポリシー全体にわたって近似の事後分布を維持し、トレーニングのためにこの事後分布から軌跡をサンプリングします。
我々は 2 つのドメインで、TS-GFN が探索を改善し、これにより過去の研究で使用されたポリシー外の探索戦略よりもターゲット分布への収束が速くなることを示します。

要約(オリジナル)

Generative flow networks (GFlowNets) are amortized variational inference algorithms that treat sampling from a distribution over compositional objects as a sequential decision-making problem with a learnable action policy. Unlike other algorithms for hierarchical sampling that optimize a variational bound, GFlowNet algorithms can stably run off-policy, which can be advantageous for discovering modes of the target distribution. Despite this flexibility in the choice of behaviour policy, the optimal way of efficiently selecting trajectories for training has not yet been systematically explored. In this paper, we view the choice of trajectories for training as an active learning problem and approach it using Bayesian techniques inspired by methods for multi-armed bandits. The proposed algorithm, Thompson sampling GFlowNets (TS-GFN), maintains an approximate posterior distribution over policies and samples trajectories from this posterior for training. We show in two domains that TS-GFN yields improved exploration and thus faster convergence to the target distribution than the off-policy exploration strategies used in past work.

arxiv情報

著者 Jarrid Rector-Brooks,Kanika Madan,Moksh Jain,Maksym Korablyov,Cheng-Hao Liu,Sarath Chandar,Nikolay Malkin,Yoshua Bengio
発行日 2023-06-30 14:19:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク