要約
マルチモーダル大規模言語モデル (MLLM) は、最近新たに注目を集めている研究分野であり、強力な大規模言語モデル (LLM) をマルチモーダル タスクを実行する頭脳として使用します。
画像に基づいたストーリーの作成や OCR を使用しない数学的推論など、MLLM の驚くべき新機能は、従来の方法ではまれであり、汎用人工知能への潜在的な道筋を示唆しています。
この論文では、MLLM の最近の進歩を追跡し、要約することを目的としています。
まず最初に、MLLM の定式化を示し、それに関連する概念を説明します。
次に、マルチモーダル命令チューニング (M-IT)、マルチモーダル インコンテキスト学習 (M-ICL)、マルチモーダル思考連鎖 (M-CoT)、LLM 支援視覚推論 (LAVR) などの主要な技術とアプリケーションについて説明します。
。
最後に、既存の課題について議論し、有望な研究の方向性を指摘します。
MLLM の時代はまだ始まったばかりであるという事実を踏まえ、私たちはこの調査を継続的に更新し、この調査がさらなる研究のきっかけとなることを願っています。
最新の論文を集めた関連する GitHub リンクは、https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models から入手できます。
要約(オリジナル)
Multimodal Large Language Model (MLLM) recently has been a new rising research hotspot, which uses powerful Large Language Models (LLMs) as a brain to perform multimodal tasks. The surprising emergent capabilities of MLLM, such as writing stories based on images and OCR-free math reasoning, are rare in traditional methods, suggesting a potential path to artificial general intelligence. In this paper, we aim to trace and summarize the recent progress of MLLM. First of all, we present the formulation of MLLM and delineate its related concepts. Then, we discuss the key techniques and applications, including Multimodal Instruction Tuning (M-IT), Multimodal In-Context Learning (M-ICL), Multimodal Chain of Thought (M-CoT), and LLM-Aided Visual Reasoning (LAVR). Finally, we discuss existing challenges and point out promising research directions. In light of the fact that the era of MLLM has only just begun, we will keep updating this survey and hope it can inspire more research. An associated GitHub link collecting the latest papers is available at https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models.
arxiv情報
著者 | Shukang Yin,Chaoyou Fu,Sirui Zhao,Ke Li,Xing Sun,Tong Xu,Enhong Chen |
発行日 | 2023-06-23 15:21:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google