要約
このレポートでは、マルチモーダルの理解と生成を統合するためのシンプルで軽量で完全にオープンソースのベースラインであるOpenuniを紹介します。
統一されたモデル学習における一般的なプラクティスに触発された私たちは、学習可能なクエリと軽量のトランスベースのコネクタを介して、既製のマルチモーダル大手言語モデル(LLMS)と拡散モデルを橋渡しすることにより、トレーニングの複雑さとオーバーヘッドを最小限に抑える効率的なトレーニング戦略を採用します。
アーキテクチャの最小限の選択により、Openuniは次のことを実証します。1)高品質および命令整列画像を生成し、2)Geneval、DPG-Bench、Wiseなどの標準ベンチマークで優れたパフォーマンスを実現し、1.1bおよび3.1bのアクティブ化されたパラメーターのみを備えています。
オープンな研究とコミュニティの進歩をサポートするために、https://github.com/wusize/openuniで、すべてのモデルの重み、トレーニングコード、キュレーションされたトレーニングデータセット(23mの画像テキストペアを含む)をリリースします。
要約(オリジナル)
In this report, we present OpenUni, a simple, lightweight, and fully open-source baseline for unifying multimodal understanding and generation. Inspired by prevailing practices in unified model learning, we adopt an efficient training strategy that minimizes the training complexity and overhead by bridging the off-the-shelf multimodal large language models (LLMs) and diffusion models through a set of learnable queries and a light-weight transformer-based connector. With a minimalist choice of architecture, we demonstrate that OpenUni can: 1) generate high-quality and instruction-aligned images, and 2) achieve exceptional performance on standard benchmarks such as GenEval, DPG- Bench, and WISE, with only 1.1B and 3.1B activated parameters. To support open research and community advancement, we release all model weights, training code, and our curated training datasets (including 23M image-text pairs) at https://github.com/wusize/OpenUni.
arxiv情報
著者 | Size Wu,Zhonghua Wu,Zerui Gong,Qingyi Tao,Sheng Jin,Qinyue Li,Wei Li,Chen Change Loy |
発行日 | 2025-05-30 12:25:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google