DreamLLM: Synergistic Multimodal Comprehension and Creation

要約

この論文では、マルチモーダルな理解と作成の間で見落とされがちな相乗効果を強化した、多用途のマルチモーダル大規模言語モデル (MLLM) を初めて実現する学習フレームワークである DreamLLM について説明します。
DreamLLM は 2 つの基本原則に基づいて動作します。
1 つ目は、生のマルチモーダル空間での直接サンプリングによる、言語と画像の両方の事後生成モデリングに焦点を当てています。
このアプローチにより、CLIP のような外部特徴抽出プログラムに固有の制限と情報損失が回避され、より完全なマルチモーダルな理解が得られます。
第 2 に、DreamLLM は、非構造化レイアウトとともにテキストと画像コンテンツの両方をモデリングする、生のインターリーブ ドキュメントの生成を促進します。
これにより、DreamLLM はすべての条件付き分布、周辺分布、結合多峰分布を効果的に学習できるようになります。
その結果、DreamLLM は、自由形式のインターリーブ コンテンツを生成できる最初の MLLM となりました。
包括的な実験により、強化された学習相乗効果から得られる、ゼロショットのマルチモーダル ジェネラリストとしての DreamLLM の優れたパフォーマンスが強調されています。

要約(オリジナル)

This paper presents DreamLLM, a learning framework that first achieves versatile Multimodal Large Language Models (MLLMs) empowered with frequently overlooked synergy between multimodal comprehension and creation. DreamLLM operates on two fundamental principles. The first focuses on the generative modeling of both language and image posteriors by direct sampling in the raw multimodal space. This approach circumvents the limitations and information loss inherent to external feature extractors like CLIP, and a more thorough multimodal understanding is obtained. Second, DreamLLM fosters the generation of raw, interleaved documents, modeling both text and image contents, along with unstructured layouts. This allows DreamLLM to learn all conditional, marginal, and joint multimodal distributions effectively. As a result, DreamLLM is the first MLLM capable of generating free-form interleaved content. Comprehensive experiments highlight DreamLLM’s superior performance as a zero-shot multimodal generalist, reaping from the enhanced learning synergy.

arxiv情報

著者 Runpei Dong,Chunrui Han,Yuang Peng,Zekun Qi,Zheng Ge,Jinrong Yang,Liang Zhao,Jianjian Sun,Hongyu Zhou,Haoran Wei,Xiangwen Kong,Xiangyu Zhang,Kaisheng Ma,Li Yi
発行日 2023-09-20 17:58:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク