Ergodic Generative Flows

要約

生成フローネットワーク(GFN)は、正規化されていない分布密度からサンプリングするために、指向の非環式グラフに最初に導入されました。
最近の研究により、生成方法の理論的枠組みが拡張され、柔軟性が向上し、アプリケーション範囲が強化されています。
ただし、フローマッチング損失の操作性、非活性トレーニングの限られたテスト、模倣学習における個別の報酬モデルの必要性など、継続的な設定でGFNをトレーニングし、模倣学習(IL)のために多くの課題が残っています。
現在の研究では、前述の問題に対処するために使用されるエルゴジック生成フロー(EGF)と呼ばれる生成フローのファミリーを提案しています。
まず、ergodity性を活用して、普遍性の保証と扱いやすい流れの損失(FM損失)を備えた、世界的に定義された変換(diffeyomorphisms)を有限に定義した変換(FM損失)を備えた単純な生成フローを構築します。
第二に、KL-WeakFM損失を生み出した弱いフローマッチングコントロールに結合した交差エントロピーを含む新しい損失を導入します。
別の報酬モデルなしでILトレーニング用に設計されています。
KL-WeakFM損失を使用して、NASAのTOY 2Dタスクと実世界のデータセットでIL-EGFSを評価します。
さらに、FM損失を使用して、ターゲット報酬でTOY 2D強化学習実験を実施します。

要約(オリジナル)

Generative Flow Networks (GFNs) were initially introduced on directed acyclic graphs to sample from an unnormalized distribution density. Recent works have extended the theoretical framework for generative methods allowing more flexibility and enhancing application range. However, many challenges remain in training GFNs in continuous settings and for imitation learning (IL), including intractability of flow-matching loss, limited tests of non-acyclic training, and the need for a separate reward model in imitation learning. The present work proposes a family of generative flows called Ergodic Generative Flows (EGFs) which are used to address the aforementioned issues. First, we leverage ergodicity to build simple generative flows with finitely many globally defined transformations (diffeomorphisms) with universality guarantees and tractable flow-matching loss (FM loss). Second, we introduce a new loss involving cross-entropy coupled to weak flow-matching control, coined KL-weakFM loss. It is designed for IL training without a separate reward model. We evaluate IL-EGFs on toy 2D tasks and real-world datasets from NASA on the sphere, using the KL-weakFM loss. Additionally, we conduct toy 2D reinforcement learning experiments with a target reward, using the FM loss.

arxiv情報

著者 Leo Maxime Brunswic,Mateo Clemente,Rui Heng Yang,Adam Sigal,Amir Rasouli,Yinchuan Li
発行日 2025-05-06 14:13:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 37A25, 68Q87, 68T07, 68T99, 68W20, cs.AI, cs.LG, math.DG, math.DS パーマリンク