Liquid: Language Models are Scalable and Unified Multi-modal Generators

要約

画像を個別のコードにトークン化し、ビジョンと言語の両方で共有機能スペース内のテキストトークンとともにこれらのコード埋め込みを学習することにより、視覚的理解と生成をシームレスに統合する自動動向的な生成パラダイムであるLiquidを提示します。
以前のマルチモーダル大手言語モデル(MLLM)とは異なり、Liquidは単一の大手言語モデル(LLM)を使用してこの統合を達成し、クリップなどの外部の前提型の視覚埋め込みの必要性を排除します。
液体は、モデルサイズが大きくなるにつれて視覚および言語のタスクの統一トレーニングによって不可避的にもたらされないパフォーマンスが低下するスケーリング法則を初めて明らかにします。
さらに、統一されたトークンスペースにより、視覚的な生成と理解タスクが相互に強化し、以前のモデルで見られる典型的な干渉を効果的に削除することができます。
既存のLLMは、液体の強力な基盤として機能し、トレーニングコストを100倍節約しながら、マルチモーダル機能のカメレオンを上回り、LLAMA2のような主流のLLMに匹敵する言語パフォーマンスを維持できることを示しています。
液体は、SD V2.1やSD-XL(MJHQ-30Kで5.47のFID)などのモデルを上回り、視覚言語とテキストのみのタスクの両方で優れています。
この作業は、QWEN2.5やGemma2などのLLMが強力なマルチモーダルジェネレーターであり、視覚言語の理解と生成の両方を強化するためのスケーラブルなソリューションを提供することを示しています。
コードとモデルはhttps://github.com/foundationvision/liquidでリリースされます。

要約(オリジナル)

We present Liquid, an auto-regressive generation paradigm that seamlessly integrates visual comprehension and generation by tokenizing images into discrete codes and learning these code embeddings alongside text tokens within a shared feature space for both vision and language. Unlike previous multimodal large language model (MLLM), Liquid achieves this integration using a single large language model (LLM), eliminating the need for external pretrained visual embeddings such as CLIP. For the first time, Liquid uncovers a scaling law that performance drop unavoidably brought by the unified training of visual and language tasks diminishes as the model size increases. Furthermore, the unified token space enables visual generation and comprehension tasks to mutually enhance each other, effectively removing the typical interference seen in earlier models. We show that existing LLMs can serve as strong foundations for Liquid, saving 100x in training costs while outperforming Chameleon in multimodal capabilities and maintaining language performance comparable to mainstream LLMs like LLAMA2. Liquid also outperforms models like SD v2.1 and SD-XL (FID of 5.47 on MJHQ-30K), excelling in both vision-language and text-only tasks. This work demonstrates that LLMs such as Qwen2.5 and GEMMA2 are powerful multimodal generators, offering a scalable solution for enhancing both vision-language understanding and generation. The code and models will be released at https://github.com/FoundationVision/Liquid.

arxiv情報

著者 Junfeng Wu,Yi Jiang,Chuofan Ma,Yuliang Liu,Hengshuang Zhao,Zehuan Yuan,Song Bai,Xiang Bai
発行日 2025-02-27 16:08:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク