KL-geodesics flow matching with a novel sampling scheme

要約

非自動性言語モデルは、すべてのトークンを同時に生成し、従来の自己回帰モデルよりも潜在的な速度の利点を提供しますが、テキストデータに固有の複雑な依存関係をモデル化する際の課題に直面しています。
この作業では、テキスト生成の条件付きフローマッチングアプローチを調査します。
トークンを\(v \) – 寸法シンプレックスの1つのホットベクトルとして表し、ロジット空間の線形補間に対応するKullback-Leibler(kl)Divergenceの下で測地線を利用します。
条件付き尤度\(p _ {\ theta}(x_1 \ mid x_t、t)\)を最大化すると、ロジット補間の下で正確な流れ速度が得られるという理論的正当化を提供します。
基本的な推論の準最適なパフォーマンスに対処するために、条件付き分布から繰り返しサンプリングし、追加のノイズを導入する新しい経験的サンプリングスキームを提案し、完全な理論的基礎がないにもかかわらず結果を大幅に改善します。
さらに、基本的なアプローチとサンプリングスキームを組み合わせたハイブリッド推論方法を提案します。
この方法は、離散フローマッチングの以前のSOTAメソッドと比較して、条件付きおよび無条件のテキスト生成実験の優れた性能を示しています。

要約(オリジナル)

Non-autoregressive language models generate all tokens simultaneously, offering potential speed advantages over traditional autoregressive models, but they face challenges in modeling the complex dependencies inherent in text data. In this work, we investigate a conditional flow matching approach for text generation. We represent tokens as one-hot vectors in a \(V\)-dimensional simplex and utilize geodesics under the Kullback-Leibler (KL) divergence, which correspond to linear interpolation in logit space. We provide a theoretical justification that maximizing the conditional likelihood \(P_{\theta}(x_1 \mid x_t, t)\) yields the exact flow matching velocity under logit interpolation. To address the suboptimal performance of basic inference, we propose a novel empirical sampling scheme that iteratively samples from the conditional distribution and introduces additional noise, significantly improving results despite lacking full theoretical underpinnings. Furthermore, we propose a hybrid inference method that combines the basic approach with the sampling scheme. This method demonstrates superior performance on both conditional and unconditional text generation experiments compared to previous SOTA method for discrete flow matching.

arxiv情報

著者 Egor Sevriugov,Ivan Oseledets
発行日 2025-03-10 13:58:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク