要約
データの爆発的な増加と急速な技術の進歩によって定義された時代において、マルチモーダル大規模言語モデル(MLLM)は人工知能(AI)システムの最前線に立っています。MLLMは、テキスト、画像、動画、音声、生理学的シーケンスなど、多様なデータタイプをシームレスに統合するように設計されており、シングルモダリティシステムの能力をはるかに超える実世界アプリケーションの複雑性に対応している。本稿では、自然言語、視覚、音声などのマルチモーダルなタスクにおけるMLLMの応用を体系的に整理する。また、タスクにおける様々なMLLMの焦点の比較分析を行い、現在のMLLMの欠点に関する洞察を提供し、将来の研究の潜在的な方向性を示唆する。これらの議論を通じて、本稿がMLLMのさらなる発展と応用のための貴重な洞察を提供することを期待している。
要約(オリジナル)
In an era defined by the explosive growth of data and rapid technological advancements, Multimodal Large Language Models (MLLMs) stand at the forefront of artificial intelligence (AI) systems. Designed to seamlessly integrate diverse data types-including text, images, videos, audio, and physiological sequences-MLLMs address the complexities of real-world applications far beyond the capabilities of single-modality systems. In this paper, we systematically sort out the applications of MLLM in multimodal tasks such as natural language, vision, and audio. We also provide a comparative analysis of the focus of different MLLMs in the tasks, and provide insights into the shortcomings of current MLLMs, and suggest potential directions for future research. Through these discussions, this paper hopes to provide valuable insights for the further development and application of MLLM.
arxiv情報
著者 | Jiaqi Wang,Hanqi Jiang,Yiheng Liu,Chong Ma,Xu Zhang,Yi Pan,Mengyuan Liu,Peiran Gu,Sichen Xia,Wenjun Li,Yutong Zhang,Zihao Wu,Zhengliang Liu,Tianyang Zhong,Bao Ge,Tuo Zhang,Ning Qiang,Xintao Hu,Xi Jiang,Xin Zhang,Wei Zhang,Dinggang Shen,Tianming Liu,Shu Zhang |
発行日 | 2024-08-02 15:14:53+00:00 |
arxivサイト | arxiv_id(pdf) |