A Survey on Multimodal Large Language Models

要約

最近、GPT-4V に代表されるマルチモーダル大規模言語モデル (MLLM) が新たな注目の研究スポットとなっています。これは、強力な大規模言語モデル (LLM) をマルチモーダル タスクを実行する頭脳として使用します。
画像に基づいたストーリーの作成や OCR を使用しない数学的推論など、MLLM の驚くべき新機能は、従来のマルチモーダル手法ではまれであり、汎用人工知能への潜在的な道筋を示唆しています。
この目的を達成するために、学界と産業界の両方が GPT-4V と競合できる、またはそれ以上の MLLM の開発に努め、驚くべきスピードで研究の限界を押し上げてきました。
この論文では、MLLM の最近の進歩を追跡し、要約することを目的としています。
まず最初に、MLLM の基本的な定式化を示し、アーキテクチャ、トレーニング戦略、データ、評価などの関連概念を概説します。
次に、より粒度、モダリティ、言語、シナリオをサポートするために MLLM を拡張する方法に関する研究トピックを紹介します。
私たちは、マルチモーダル幻覚と、マルチモーダル ICL (M-ICL)、マルチモーダル CoT (M-CoT)、LLM 支援視覚推論 (LAVR) などの拡張技術を継続します。
論文の締めくくりとして、既存の課題について議論し、有望な研究の方向性を指摘します。
MLLM の時代はまだ始まったばかりであるという事実を踏まえ、私たちはこの調査を継続的に更新し、この調査がさらなる研究のきっかけとなることを願っています。
最新の論文を集めた関連する GitHub リンクは、https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models から入手できます。

要約(オリジナル)

Recently, Multimodal Large Language Model (MLLM) represented by GPT-4V has been a new rising research hotspot, which uses powerful Large Language Models (LLMs) as a brain to perform multimodal tasks. The surprising emergent capabilities of MLLM, such as writing stories based on images and OCR-free math reasoning, are rare in traditional multimodal methods, suggesting a potential path to artificial general intelligence. To this end, both academia and industry have endeavored to develop MLLMs that can compete with or even better than GPT-4V, pushing the limit of research at a surprising speed. In this paper, we aim to trace and summarize the recent progress of MLLMs. First of all, we present the basic formulation of MLLM and delineate its related concepts, including architecture, training strategy and data, as well as evaluation. Then, we introduce research topics about how MLLMs can be extended to support more granularity, modalities, languages, and scenarios. We continue with multimodal hallucination and extended techniques, including Multimodal ICL (M-ICL), Multimodal CoT (M-CoT), and LLM-Aided Visual Reasoning (LAVR). To conclude the paper, we discuss existing challenges and point out promising research directions. In light of the fact that the era of MLLM has only just begun, we will keep updating this survey and hope it can inspire more research. An associated GitHub link collecting the latest papers is available at https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.

arxiv情報

著者 Shukang Yin,Chaoyou Fu,Sirui Zhao,Ke Li,Xing Sun,Tong Xu,Enhong Chen
発行日 2024-11-29 15:51:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク