Proxy-Free GFlowNet

要約

生成フローネットワーク(Gflownets)は、構成オブジェクト上の分布をモデル化することにより、多様な高報酬構造をサンプリングするように設計された有望なクラスの生成モデルです。
多くの現実世界のアプリケーションでは、そのようなオブジェクトの報酬関数を取得することは高価で、時間がかかる、または人間の入力が必要であり、履歴データセットからGflownetsをトレーニングする必要があります。
ほとんどの既存の方法は、モデルベースのアプローチを採用しており、データセットからプロキシモデルを学習して報酬機能を近似します。
ただし、この戦略は、学習ポリシーの品質をプロキシの正確性に本質的に結び付け、トレーニングプロセスに追加の複雑さと不確実性を導入します。
これらの制限を克服するために、\ textbf {traujectory-distilled gflownet(td-gfn)}を提案します。
私たちの方法は、関連する指示された非環式グラフ(DAG)の異なるエッジが効果的な政策学習に不平等に貢献するという重要な観察によって動機付けられています。
TD-GFNは逆補強学習学習オフラインデータセットからのエッジレベルの報酬を推定するために学習を行い、それを使用してDAGを巧みに剪定し、トレーニング中に後方軌道サンプリングを導きます。
このアプローチは、モデルフィッティングの複雑さを減らしながら、高報酬領域に向けてポリシーを指示します。
複数のタスクにわたる経験的結果は、TD-GFNが効率的かつ確実に訓練し、収束速度とサンプル品質の既存のベースラインを大幅に上回ることを示しています。

要約(オリジナル)

Generative Flow Networks (GFlowNets) are a promising class of generative models designed to sample diverse, high-reward structures by modeling distributions over compositional objects. In many real-world applications, obtaining the reward function for such objects is expensive, time-consuming, or requires human input, making it necessary to train GFlowNets from historical datasets. Most existing methods adopt a model-based approach, learning a proxy model from the dataset to approximate the reward function. However, this strategy inherently ties the quality of the learned policy to the accuracy of the proxy, introducing additional complexity and uncertainty into the training process. To overcome these limitations, we propose \textbf{Trajectory-Distilled GFlowNet (TD-GFN)}, a \emph{proxy-free} training framework that eliminates the need for out-of-dataset reward queries. Our method is motivated by the key observation that different edges in the associated directed acyclic graph (DAG) contribute unequally to effective policy learning. TD-GFN leverages inverse reinforcement learning to estimate edge-level rewards from the offline dataset, which are then used to ingeniously prune the DAG and guide backward trajectory sampling during training. This approach directs the policy toward high-reward regions while reducing the complexity of model fitting. Empirical results across multiple tasks show that TD-GFN trains both efficiently and reliably, significantly outperforming existing baselines in convergence speed and sample quality.

arxiv情報

著者 Ruishuo Chen,Xun Wang,Rui Hu,Zhuoran Li,Longbo Huang
発行日 2025-05-26 15:12:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク