BLIP3-o: A Family of Fully Open Unified Multimodal Models-Architecture, Training and Dataset

要約

統一された画像の理解と生成は、マルチモーダルモデルに関する最近の研究で注目を集めています。
画像理解のための設計の選択は広範囲に研究されていますが、画像生成を備えた統一されたフレームワークの最適なモデルアーキテクチャとトレーニングレシピは、採用不足のままです。
高品質の生成とスケーラビリティのための自己回帰および拡散モデルの強力な可能性に動機付けられ、画像表現、モデリング目標、トレーニング戦略に重点を置いて、統一されたマルチモーダル設定での使用に関する包括的な研究を実施します。
これらの調査に基づいて、従来のVAEベースの表現とは対照的に、拡散トランスを使用して意味的にリッチなクリップ画像機能を生成する新しいアプローチを紹介します。
この設計により、トレーニング効率が高くなり、生成品質が向上しました。
さらに、画像の理解とその後の画像生成オフの実用的な利点に関する統一されたモデルの最初のトレーニングのための連続的な事前トレーニング戦略が、強力な画像生成能力を開発しながら画像理解能力を維持することにより、実用的な利点であることを実証します。
最後に、さまざまなシーン、オブジェクト、人間のジェスチャーなどをカバーする多様なキャプションセットでGPT-4oをプロンプトすることにより、画像生成のために高品質の命令調整データセットBLIP3O-60Kを慎重にキュレートします。
革新的なモデル設計、トレーニングレシピ、およびデータセットに基づいて、最先端の統一マルチモーダルモデルのスイートであるBlip3-Oを開発しています。
BLIP3-Oは、画像の理解と生成タスクの両方にまたがる人気のあるベンチマークのほとんどにわたって優れたパフォーマンスを実現します。
将来の研究を容易にするために、コード、モデルの重み、トレーニングスクリプト、および事前販売と命令の調整データセットなど、モデルを完全にオープンソースで飾ります。

要約(オリジナル)

Unifying image understanding and generation has gained growing attention in recent research on multimodal models. Although design choices for image understanding have been extensively studied, the optimal model architecture and training recipe for a unified framework with image generation remain underexplored. Motivated by the strong potential of autoregressive and diffusion models for high-quality generation and scalability, we conduct a comprehensive study of their use in unified multimodal settings, with emphasis on image representations, modeling objectives, and training strategies. Grounded in these investigations, we introduce a novel approach that employs a diffusion transformer to generate semantically rich CLIP image features, in contrast to conventional VAE-based representations. This design yields both higher training efficiency and improved generative quality. Furthermore, we demonstrate that a sequential pretraining strategy for unified models-first training on image understanding and subsequently on image generation-offers practical advantages by preserving image understanding capability while developing strong image generation ability. Finally, we carefully curate a high-quality instruction-tuning dataset BLIP3o-60k for image generation by prompting GPT-4o with a diverse set of captions covering various scenes, objects, human gestures, and more. Building on our innovative model design, training recipe, and datasets, we develop BLIP3-o, a suite of state-of-the-art unified multimodal models. BLIP3-o achieves superior performance across most of the popular benchmarks spanning both image understanding and generation tasks. To facilitate future research, we fully open-source our models, including code, model weights, training scripts, and pretraining and instruction tuning datasets.

arxiv情報

著者 Jiuhai Chen,Zhiyang Xu,Xichen Pan,Yushi Hu,Can Qin,Tom Goldstein,Lifu Huang,Tianyi Zhou,Saining Xie,Silvio Savarese,Le Xue,Caiming Xiong,Ran Xu
発行日 2025-05-14 17:11:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク