The Labyrinth of Links: Navigating the Associative Maze of Multi-modal LLMs

要約

マルチモーダル大規模言語モデル(MLLM)は素晴らしい能力を発揮してきた。しかし、最近、人間の知能、$textit{e.g.}$、幻覚などと比較して、MLLMの多くの欠陥が見つかっている。MLLMの研究を推進するために、コミュニティは複雑なタスクを含むより大規模なベンチマークの構築に力を注いでいる。本論文では、$textbf{association}$という、観察記憶と事前練習記憶を結びつける人間の基本能力という、本質的であるが通常見過ごされがちな知能のベンチマークを提案する。連想に関するMLLMの性能を包括的に調査するために、我々は連想タスクを定式化し、形容詞と動詞の意味概念に基づく標準ベンチマークを考案する。データのアノテーションやキュレーションにコストをかける代わりに、一般的なデータセットを連想タスク用に変換する便利な$textbf{annotation-free}$構築法を提案する。同時に、生データセットの混乱を排除するために、厳密なデータ洗練プロセスを考案する。このデータベースを基に、シングルステップ、同期、非同期の3つのレベルの連想タスクを構築する。さらに、3つの異なる記憶戦略、オープンソースとクローズドソースの両方のMLLM、最先端のMoE(Mixture-of-Experts)モデル、人間の専門家の関与など、多角的な観点からMLLMのゼロショット連想能力を包括的に調査する。我々の体系的な調査により、現在のオープンソースのMLLMは一貫して我々の連想タスクにおいて不十分な能力を示し、現在最先端のGPT-4V(vision)でも人間と比較して大きな隔たりがあることが示された。我々は、このベンチマークが今後のMLLM研究に道を開くと信じている。このベンチマークは、今後のMLLM研究に道を開くと信じている。

要約(オリジナル)

Multi-modal Large Language Models (MLLMs) have exhibited impressive capability. However, recently many deficiencies of MLLMs have been found compared to human intelligence, $\textit{e.g.}$, hallucination. To drive the MLLMs study, the community dedicated efforts to building larger benchmarks with complex tasks. In this paper, we propose benchmarking an essential but usually overlooked intelligence: $\textbf{association}$, a human’s basic capability to link observation and prior practice memory. To comprehensively investigate MLLM’s performance on the association, we formulate the association task and devise a standard benchmark based on adjective and verb semantic concepts. Instead of costly data annotation and curation, we propose a convenient $\textbf{annotation-free}$ construction method transforming the general dataset for our association tasks. Simultaneously, we devise a rigorous data refinement process to eliminate confusion in the raw dataset. Building on this database, we establish three levels of association tasks: single-step, synchronous, and asynchronous associations. Moreover, we conduct a comprehensive investigation into the MLLMs’ zero-shot association capabilities, addressing multiple dimensions, including three distinct memory strategies, both open-source and closed-source MLLMs, cutting-edge Mixture-of-Experts (MoE) models, and the involvement of human experts. Our systematic investigation shows that current open-source MLLMs consistently exhibit poor capability in our association tasks, even the currently state-of-the-art GPT-4V(vision) also has a significant gap compared to humans. We believe our benchmark would pave the way for future MLLM studies. $\textit{Our data and code are available at:}$ https://mvig-rhos.com/llm_inception.

arxiv情報

著者 Hong Li,Nanxi Li,Yuanjie Chen,Jianbin Zhu,Qinlu Guo,Cewu Lu,Yong-Lu Li
発行日 2025-03-03 00:41:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク