A Survey on Evaluation of Multimodal Large Language Models

要約

マルチモーダル大規模言語モデル (MLLM) は、強力な大規模言語モデル (LLM) をさまざまなモダリティ エンコーダ (視覚、音声など) と統合し、LLM を「脳」として、さまざまなモダリティ エンコーダを感覚器官として位置付けることにより、人間の知覚および推論システムを模倣します。
このフレームワークは、MLLM に人間のような能力を与え、汎用人工知能 (AGI) の実現に向けた潜在的な道筋を示唆しています。
GPT-4V や Gemini のようなオールラウンド MLLM の出現により、さまざまな次元でその能力を評価するための多数の評価方法が開発されました。
この文書では、MLLM 評価方法の体系的かつ包括的なレビューを示し、次の主要な側面をカバーします。(1) MLLM の背景とその評価。
(2) 「何を評価するか」。一般的なマルチモーダルな認識、知覚、推論、信頼性、および社会経済、自然科学と工学、医療用途などの領域固有のアプリケーションを含む、評価された能力に基づいて既存の MLLM 評価タスクをレビューおよび分類します。
AIエージェント、リモートセンシング、ビデオおよびオーディオ処理、3D点群解析など。
(3) MLLM の評価ベンチマークを一般ベンチマークと個別ベンチマークにまとめた「どこを評価するか」。
(4) MLLM の評価手順と指標を確認および説明する「評価方法」。
私たちの最も重要な目標は、MLLM 評価分野の研究者に貴重な洞察を提供し、それによってより有能で信頼性の高い MLLM の開発を促進することです。
私たちは、評価が MLLM の分野を進歩させるために不可欠な重要な規律としてみなされるべきであることを強調します。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) mimic human perception and reasoning system by integrating powerful Large Language Models (LLMs) with various modality encoders (e.g., vision, audio), positioning LLMs as the ‘brain’ and various modality encoders as sensory organs. This framework endows MLLMs with human-like capabilities, and suggests a potential pathway towards achieving artificial general intelligence (AGI). With the emergence of all-round MLLMs like GPT-4V and Gemini, a multitude of evaluation methods have been developed to assess their capabilities across different dimensions. This paper presents a systematic and comprehensive review of MLLM evaluation methods, covering the following key aspects: (1) the background of MLLMs and their evaluation; (2) ‘what to evaluate’ that reviews and categorizes existing MLLM evaluation tasks based on the capabilities assessed, including general multimodal recognition, perception, reasoning and trustworthiness, and domain-specific applications such as socioeconomic, natural sciences and engineering, medical usage, AI agent, remote sensing, video and audio processing, 3D point cloud analysis, and others; (3) ‘where to evaluate’ that summarizes MLLM evaluation benchmarks into general and specific benchmarks; (4) ‘how to evaluate’ that reviews and illustrates MLLM evaluation steps and metrics; Our overarching goal is to provide valuable insights for researchers in the field of MLLM evaluation, thereby facilitating the development of more capable and reliable MLLMs. We emphasize that evaluation should be regarded as a critical discipline, essential for advancing the field of MLLMs.

arxiv情報

著者 Jiaxing Huang,Jingyi Zhang
発行日 2024-08-28 13:05:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク