UniGen: Enhanced Training & Test-Time Strategies for Unified Multimodal Understanding and Generation

要約

画像の理解と生成が可能な統一されたマルチモーダル大手言語モデル(MLLM)であるUnigenを紹介します。
私たちは、マルチステージの事前トレーニング、監視付き微調整、直接優先最適化など、データ中心の観点からユニゲンの完全なトレーニングパイプラインを研究します。
さらに重要なことは、テスト時間スケーリングのための新しい考え方のチェーン検証(COT-V)戦略を提案することです。
具体的には、COT-Vを使用すると、Unigenはテスト時に画像ジェネレーターと検証剤の両方として機能し、テキストプロンプトとその生成された画像間のセマンティックアライメントをステップバイステップCOTマナーで評価します。
すべての段階でオープンソースのデータセットで完全に訓練されたUnigenは、さまざまな画像理解と世代のベンチマークで最新のパフォーマンスを実現し、Genevalで0.78、DPGベンチで85.19の最終スコアがあります。
広範なアブレーション研究を通じて、私たちの研究は実用的な洞察を提供し、統一されたMLLMを構築するという完全なライフサイクルにおける重要な課題に取り組み、将来の研究に意味のある方向性を提供します。

要約(オリジナル)

We introduce UniGen, a unified multimodal large language model (MLLM) capable of image understanding and generation. We study the full training pipeline of UniGen from a data-centric perspective, including multi-stage pre-training, supervised fine-tuning, and direct preference optimization. More importantly, we propose a new Chain-of-Thought Verification (CoT-V) strategy for test-time scaling, which significantly boosts UniGen’s image generation quality using a simple Best-of-N test-time strategy. Specifically, CoT-V enables UniGen to act as both image generator and verifier at test time, assessing the semantic alignment between a text prompt and its generated image in a step-by-step CoT manner. Trained entirely on open-source datasets across all stages, UniGen achieves state-of-the-art performance on a range of image understanding and generation benchmarks, with a final score of 0.78 on GenEval and 85.19 on DPG-Bench. Through extensive ablation studies, our work provides actionable insights and addresses key challenges in the full life cycle of building unified MLLMs, contributing meaningful directions to the future research.

arxiv情報

著者 Rui Tian,Mingfei Gao,Mingze Xu,Jiaming Hu,Jiasen Lu,Zuxuan Wu,Yinfei Yang,Afshin Dehghan
発行日 2025-05-20 17:59:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク