PUMA: Empowering Unified MLLM with Multi-granular Visual Generation

要約

マルチモーダル基礎モデルの最近の進歩により、視覚言語の理解に大きな進歩がもたらされました。
初期の試みでは、ビジュアル コンテンツ生成のためのマルチモーダル大規模言語モデル (MLLM) の可能性も調査されました。
しかし、既存の研究では、テキストから画像への生成に必要な多様性から、画像操作に必要な正確な制御性まで、統一された MLLM パラダイム内のさまざまな画像生成タスクのさまざまな粒度の要求に十分に対応できていません。
この取り組みでは、Multi-grAnular ビジュアル生成を使用して Unified MLLM を強化する PUMA を提案します。
PUMA は、MLLM の入力と出力の両方としてマルチ粒度のビジュアル機能を統合し、統合された MLLM フレームワーク内でさまざまな画像生成タスクのさまざまな粒度要件にエレガントに対応します。
マルチモーダルな事前トレーニングとタスク固有の命令調整の後、PUMA は幅広いマルチモーダルなタスクの習熟度を実証します。
この取り組みは、さまざまな視覚タスクの粒度要求に適応できる真に統合された MLLM に向けた重要な一歩を表しています。
コードとモデルは https://github.com/rongyaofang/PUMA で公開されます。

要約(オリジナル)

Recent advancements in multimodal foundation models have yielded significant progress in vision-language understanding. Initial attempts have also explored the potential of multimodal large language models (MLLMs) for visual content generation. However, existing works have insufficiently addressed the varying granularity demands of different image generation tasks within a unified MLLM paradigm – from the diversity required in text-to-image generation to the precise controllability needed in image manipulation. In this work, we propose PUMA, emPowering Unified MLLM with Multi-grAnular visual generation. PUMA unifies multi-granular visual features as both inputs and outputs of MLLMs, elegantly addressing the different granularity requirements of various image generation tasks within a unified MLLM framework. Following multimodal pretraining and task-specific instruction tuning, PUMA demonstrates proficiency in a wide range of multimodal tasks. This work represents a significant step towards a truly unified MLLM capable of adapting to the granularity demands of various visual tasks. The code and model will be released in https://github.com/rongyaofang/PUMA.

arxiv情報

著者 Rongyao Fang,Chengqi Duan,Kun Wang,Hao Li,Hao Tian,Xingyu Zeng,Rui Zhao,Jifeng Dai,Hongsheng Li,Xihui Liu
発行日 2024-10-17 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク