$α$-Flow: A Unified Framework for Continuous-State Discrete Flow Matching Models

要約

最近の取り組みにより、フローマッチングフレームワークが個別の生成モデリングに拡大されました。
モデルの1つは、離散トークンの代わりに連続確率で直接動作します。これは、連続状態の離散フローマッチング(CS-DFM)と口語的に呼びます。
既存のCS-DFMモデルは、表現と幾何学的仮定が大きく異なります。
この作業は、CS-DFMモデルの統一されたフレームワークを提示します。このフレームは、既存のバリアントをさまざまな$ \ alpha $ representations of Probabilityで動作させると理解できます。
情報ジオメトリの理論に基づいて、統計マニホールドの標準$ \ alpha $ geometryを順守するCS-DFMモデルのファミリーである$ \ alpha $ -flowを紹介し、一般化された運動エネルギーを最小化する最適性を実証します。
理論的には、$ \ alpha $ -Flowのフローマッチング損失が、離散負の対数尤度のために統一された変分結合を確立することを示します。
さまざまな離散生成ドメインでの$ \ alpha $ -Flowの異なるインスタンス化を包括的に評価して、ジオメトリが以前に調査されたことのない中間値を含む、離散生成モデリングにおける有効性を実証します。
$ \ alpha $ -flowは、画像とタンパク質配列の生成の離散状態の対応物を大幅に上回り、言語モデリングのエントロピーをよりよく捉えます。

要約(オリジナル)

Recent efforts have extended the flow-matching framework to discrete generative modeling. One strand of models directly works with the continuous probabilities instead of discrete tokens, which we colloquially refer to as Continuous-State Discrete Flow Matching (CS-DFM). Existing CS-DFM models differ significantly in their representations and geometric assumptions. This work presents a unified framework for CS-DFM models, under which the existing variants can be understood as operating on different $\alpha$-representations of probabilities. Building upon the theory of information geometry, we introduce $\alpha$-Flow, a family of CS-DFM models that adheres to the canonical $\alpha$-geometry of the statistical manifold, and demonstrate its optimality in minimizing the generalized kinetic energy. Theoretically, we show that the flow matching loss for $\alpha$-flow establishes a unified variational bound for the discrete negative log-likelihood. We comprehensively evaluate different instantiations of $\alpha$-flow on various discrete generation domains to demonstrate their effectiveness in discrete generative modeling, including intermediate values whose geometries have never been explored before. $\alpha$-flow significantly outperforms its discrete-state counterpart in image and protein sequence generation and better captures the entropy in language modeling.

arxiv情報

著者 Chaoran Cheng,Jiahan Li,Jiajun Fan,Ge Liu
発行日 2025-04-14 14:51:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク