Efficient Multimodal Large Language Models: A Survey

要約

過去 1 年間、マルチモーダル大規模言語モデル (MLLM) は、視覚的な質問応答、視覚的な理解、推論などのタスクにおいて顕著なパフォーマンスを実証してきました。
しかし、モデルの規模が大きく、トレーニングと推論のコストが高いため、学界や産業界での MLLM の広範な適用が妨げられてきました。
したがって、効率的で軽量な MLLM の研究には、特にエッジ コンピューティングのシナリオにおいて大きな可能性があります。
この調査では、効率的な MLLM の現状を包括的かつ体系的にレビューします。
具体的には、代表的な効率的なMLLMのタイムライン、効率的な構造と戦略の研究状況、およびアプリケーションをまとめます。
最後に、現在の効率的な MLLM 研究の限界と将来の有望な方向性について説明します。
詳細については、GitHub リポジトリを参照してください: https://github.com/lijiannuist/Efficient-Multimodal-LLMs-Survey。

要約(オリジナル)

In the past year, Multimodal Large Language Models (MLLMs) have demonstrated remarkable performance in tasks such as visual question answering, visual understanding and reasoning. However, the extensive model size and high training and inference costs have hindered the widespread application of MLLMs in academia and industry. Thus, studying efficient and lightweight MLLMs has enormous potential, especially in edge computing scenarios. In this survey, we provide a comprehensive and systematic review of the current state of efficient MLLMs. Specifically, we summarize the timeline of representative efficient MLLMs, research state of efficient structures and strategies, and the applications. Finally, we discuss the limitations of current efficient MLLM research and promising future directions. Please refer to our GitHub repository for more details: https://github.com/lijiannuist/Efficient-Multimodal-LLMs-Survey.

arxiv情報

著者 Yizhang Jin,Jian Li,Yexin Liu,Tianjun Gu,Kai Wu,Zhengkai Jiang,Muyang He,Bo Zhao,Xin Tan,Zhenye Gan,Yabiao Wang,Chengjie Wang,Lizhuang Ma
発行日 2024-08-09 09:28:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク