要約
この論文では、状態遷移の軌跡を通じて、与えられた報酬関数に比例してオブジェクトをサンプリングすることを学習する生成フロー ネットワーク (GFlowNets) について研究します。
この研究では、GFlowNet が不十分な数の軌道でのトレーニングにより高報酬オブジェクトを十分に活用しない傾向があり、推定フローと (既知の) 報酬値の間に大きなギャップが生じる可能性があることを観察しました。
この課題に応えて、私たちは GFlowNets (PBP-GFN) の悲観的な逆方向ポリシーを提案します。これは、オブジェクトの真の報酬と厳密に一致するように観測されたフローを最大化します。
私たちは、ハイパーグリッド環境、バッグ生成、構造化セット生成、分子生成、および 4 つの RNA 配列生成タスクを含む 8 つのベンチマークにわたって PBP-GFN を広範囲に評価します。
特に、PBP-GFN は、報酬の高いオブジェクトの発見を強化し、オブジェクトの多様性を維持し、既存の方法を常に上回ります。
要約(オリジナル)
This paper studies Generative Flow Networks (GFlowNets), which learn to sample objects proportionally to a given reward function through the trajectory of state transitions. In this work, we observe that GFlowNets tend to under-exploit the high-reward objects due to training on insufficient number of trajectories, which may lead to a large gap between the estimated flow and the (known) reward value. In response to this challenge, we propose a pessimistic backward policy for GFlowNets (PBP-GFN), which maximizes the observed flow to align closely with the true reward for the object. We extensively evaluate PBP-GFN across eight benchmarks, including hyper-grid environment, bag generation, structured set generation, molecular generation, and four RNA sequence generation tasks. In particular, PBP-GFN enhances the discovery of high-reward objects, maintains the diversity of the objects, and consistently outperforms existing methods.
arxiv情報
著者 | Hyosoon Jang,Yunhui Jang,Minsu Kim,Jinkyoo Park,Sungsoo Ahn |
発行日 | 2024-10-16 15:57:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google