要約
私たちは、画像を個別のコードにトークン化し、視覚と言語の両方の共有特徴空間内でテキスト トークンとともにこれらのコードの埋め込みを学習することで、視覚的な理解と生成をシームレスに統合する自動回帰生成パラダイムである Liquid を紹介します。
以前のマルチモーダル大規模言語モデル (MLLM) とは異なり、Liquid は単一の大規模言語モデル (LLM) を使用してこの統合を実現し、CLIP などの外部の事前トレーニング済みビジュアル埋め込みの必要性を排除します。
Liquid は、視覚タスクと言語タスクの統合トレーニングによって不可避的にもたらされるパフォーマンスの低下が、モデルのサイズが大きくなるにつれて減少するというスケーリング則を初めて明らかにしました。
さらに、統一されたトークン空間により、視覚的な生成と理解のタスクが相互に強化され、以前のモデルで見られた典型的な干渉が効果的に除去されます。
既存の LLM が Liquid の強力な基盤として機能し、トレーニング コストを 100 分の 1 に節約しながら、マルチモーダル機能で Chameleon を上回り、LLAMA2 などの主流の LLM に匹敵する言語パフォーマンスを維持できることを示します。
また、Liquid は SD v2.1 や SD-XL (MJHQ-30K の FID 5.47) などのモデルよりも優れており、視覚言語とテキストのみのタスクの両方で優れています。
この研究は、LLAMA3.2 や GEMMA2 などの LLM が強力なマルチモーダル ジェネレーターであり、ビジョン言語の理解と生成の両方を強化するためのスケーラブルなソリューションを提供することを示しています。
コードとモデルは https://github.com/FoundationVision/Liquid でリリースされます。
要約(オリジナル)
We present Liquid, an auto-regressive generation paradigm that seamlessly integrates visual comprehension and generation by tokenizing images into discrete codes and learning these code embeddings alongside text tokens within a shared feature space for both vision and language. Unlike previous multimodal large language model (MLLM), Liquid achieves this integration using a single large language model (LLM), eliminating the need for external pretrained visual embeddings such as CLIP. For the first time, Liquid uncovers a scaling law that performance drop unavoidably brought by the unified training of visual and language tasks diminishes as the model size increases. Furthermore, the unified token space enables visual generation and comprehension tasks to mutually enhance each other, effectively removing the typical interference seen in earlier models. We show that existing LLMs can serve as strong foundations for Liquid, saving 100x in training costs while outperforming Chameleon in multimodal capabilities and maintaining language performance comparable to mainstream LLMs like LLAMA2. Liquid also outperforms models like SD v2.1 and SD-XL (FID of 5.47 on MJHQ-30K), excelling in both vision-language and text-only tasks. This work demonstrates that LLMs such as LLAMA3.2 and GEMMA2 are powerful multimodal generators, offering a scalable solution for enhancing both vision-language understanding and generation. The code and models will be released at https://github.com/FoundationVision/Liquid.
arxiv情報
著者 | Junfeng Wu,Yi Jiang,Chuofan Ma,Yuliang Liu,Hengshuang Zhao,Zehuan Yuan,Song Bai,Xiang Bai |
発行日 | 2024-12-12 18:08:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google