FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities

要約

大規模な言語モデル(LLMS)の急速な進歩は、単一のフレームワーク内で視覚的理解と画像生成を統合するマルチモーダル大手言語モデル(MLLM)の出現を触媒しました。
ただし、ほとんどの既存のMLLMは、自動回復(AR)アーキテクチャに依存しています。これは、画像生成におけるラスタースキャン順序や因果文脈モデリングの制限された推論能力など、将来の開発に固有の制限を課しています。
この作業では、従来のARパラダイムの代替として、離散フローマッチングに純粋に基づいた統一マルチモーダルモデルであるFudokiを導入することにより、ARベースのアプローチの支配に挑戦します。
速度論的最適速度を備えたメトリック誘導確率パスを活用することにより、私たちのフレームワークは、以前のマスキングベースの腐敗プロセスを超えて、自己修正能力と生成中のより豊かな双方向コンテキストの統合を伴う反復改良性を可能にします。
ゼロからのトレーニングの高コストを緩和するために、Fudokiを事前に訓練したARベースのMLLMSから初期化し、適応的に一致するパラダイムに適応的に移行します。
実験結果は、Fudokiが視覚的理解と画像生成タスクの両方で最先端のARベースのMLLMに匹敵するパフォーマンスを達成し、次世代統一マルチモーダルモデルの基礎としての可能性を強調していることを示しています。
さらに、Fudokiにテスト時間スケーリング技術を適用すると、大幅なパフォーマンスが得られ、強化学習による将来の強化に対する約束をさらに強調することが示されています。

要約(オリジナル)

The rapid progress of large language models (LLMs) has catalyzed the emergence of multimodal large language models (MLLMs) that unify visual understanding and image generation within a single framework. However, most existing MLLMs rely on autoregressive (AR) architectures, which impose inherent limitations on future development, such as the raster-scan order in image generation and restricted reasoning abilities in causal context modeling. In this work, we challenge the dominance of AR-based approaches by introducing FUDOKI, a unified multimodal model purely based on discrete flow matching, as an alternative to conventional AR paradigms. By leveraging metric-induced probability paths with kinetic optimal velocities, our framework goes beyond the previous masking-based corruption process, enabling iterative refinement with self-correction capability and richer bidirectional context integration during generation. To mitigate the high cost of training from scratch, we initialize FUDOKI from pre-trained AR-based MLLMs and adaptively transition to the discrete flow matching paradigm. Experimental results show that FUDOKI achieves performance comparable to state-of-the-art AR-based MLLMs across both visual understanding and image generation tasks, highlighting its potential as a foundation for next-generation unified multimodal models. Furthermore, we show that applying test-time scaling techniques to FUDOKI yields significant performance gains, further underscoring its promise for future enhancement through reinforcement learning.

arxiv情報

著者 Jin Wang,Yao Lai,Aoxue Li,Shifeng Zhang,Jiacheng Sun,Ning Kang,Chengyue Wu,Zhenguo Li,Ping Luo
発行日 2025-05-26 15:46:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク