The Revolution of Multimodal Large Language Models: A Survey

要約

テキストとビジュアルモダリティを結び付けることは、生成知能において重要な役割を果たします。
このため、大規模言語モデルの成功に触発されて、マルチモーダル大規模言語モデル (MLLM) の開発に多大な研究努力が注がれています。
これらのモデルは、対話ベースのインターフェイスと指示に従う機能を提供しながら、ビジュアルおよびテキストのモダリティをシームレスに統合できます。
このペーパーでは、最近のビジュアルベースの MLLM の包括的なレビューを提供し、そのアーキテクチャの選択、マルチモーダル アライメント戦略、トレーニング手法を分析します。
また、視覚的な基礎付け、画像の生成と編集、視覚的な理解、ドメイン固有のアプリケーションなど、幅広いタスクにわたってこれらのモデルの詳細な分析を実行します。
さらに、トレーニング データセットと評価ベンチマークを編集して説明し、パフォーマンスと計算要件の観点から既存のモデル間の比較を行います。
全体として、この調査は現在の最先端技術の包括的な概要を提供し、将来の MLLM の基礎を築きます。

要約(オリジナル)

Connecting text and visual modalities plays an essential role in generative intelligence. For this reason, inspired by the success of large language models, significant research efforts are being devoted to the development of Multimodal Large Language Models (MLLMs). These models can seamlessly integrate visual and textual modalities, while providing a dialogue-based interface and instruction-following capabilities. In this paper, we provide a comprehensive review of recent visual-based MLLMs, analyzing their architectural choices, multimodal alignment strategies, and training techniques. We also conduct a detailed analysis of these models across a wide range of tasks, including visual grounding, image generation and editing, visual understanding, and domain-specific applications. Additionally, we compile and describe training datasets and evaluation benchmarks, conducting comparisons among existing models in terms of performance and computational requirements. Overall, this survey offers a comprehensive overview of the current state of the art, laying the groundwork for future MLLMs.

arxiv情報

著者 Davide Caffagni,Federico Cocchi,Luca Barsellotti,Nicholas Moratelli,Sara Sarto,Lorenzo Baraldi,Lorenzo Baraldi,Marcella Cornia,Rita Cucchiara
発行日 2024-06-06 16:13:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM パーマリンク