MM-LLMs: Recent Advances in MultiModal Large Language Models

要約

過去 1 年で、マルチモーダル大規模言語モデル (MM-LLM) は大幅な進歩を遂げ、既製の LLM を強化して、費用対効果の高いトレーニング戦略を通じて MM の入力または出力をサポートしました。
結果として得られるモデルは、LLM に固有の推論機能と意思決定機能を維持するだけでなく、さまざまな範囲の MM タスクを強化します。
このペーパーでは、MM-LLM のさらなる研究を促進することを目的とした包括的な調査を提供します。
具体的には、まずモデル アーキテクチャとトレーニング パイプラインの一般的な設計定式化の概要を説明します。
続いて、それぞれが特定の配合によって特徴づけられる 26 ドルの既存の MM-LLM を簡単に紹介します。
さらに、主流のベンチマークで MM-LLM のパフォーマンスをレビューし、MM-LLM の効力を高めるための主要なトレーニング レシピをまとめます。
最後に、この分野の最新の開発をリアルタイムで追跡する Web サイトを維持しながら、MM-LLM の有望な方向性を探ります。
この調査が MM-LLM ドメインの継続的な進歩に貢献することを願っています。

要約(オリジナル)

In the past year, MultiModal Large Language Models (MM-LLMs) have undergone substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or outputs via cost-effective training strategies. The resulting models not only preserve the inherent reasoning and decision-making capabilities of LLMs but also empower a diverse range of MM tasks. In this paper, we provide a comprehensive survey aimed at facilitating further research of MM-LLMs. Specifically, we first outline general design formulations for model architecture and training pipeline. Subsequently, we provide brief introductions of $26$ existing MM-LLMs, each characterized by its specific formulations. Additionally, we review the performance of MM-LLMs on mainstream benchmarks and summarize key training recipes to enhance the potency of MM-LLMs. Lastly, we explore promising directions for MM-LLMs while concurrently maintaining a real-time tracking website for the latest developments in the field. We hope that this survey contributes to the ongoing advancement of the MM-LLMs domain.

arxiv情報

著者 Duzhen Zhang,Yahan Yu,Chenxing Li,Jiahua Dong,Dan Su,Chenhui Chu,Dong Yu
発行日 2024-01-25 03:46:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク