A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges

要約

人間の認知の中核となる数学的推論は、教育上の問題解決から科学の進歩に至るまで、多くの分野で不可欠です。
汎用人工知能 (AGI) が進歩するにつれて、大規模言語モデル (LLM) と数学的推論タスクの統合がますます重要になってきています。
この調査は、マルチモーダル大規模言語モデル (MLLM) の時代における数学的推論の最初の包括的な分析を提供します。
私たちは 2021 年以降に発表された 200 以上の研究をレビューし、マルチモーダル設定に焦点を当てた Math-LLM の最先端の開発を調査します。
私たちはこの分野をベンチマーク、方法論、課題の 3 つの側面に分類します。
特に、マルチモーダルな数学的推論パイプライン、(M)LLM の役割、および関連する方法論を調査します。
最後に、このドメインでの AGI の実現を妨げている 5 つの主要な課題を特定し、マルチモーダル推論機能を強化するための将来の方向性についての洞察を提供します。
この調査は、複雑なマルチモーダル推論タスクに取り組むための LLM の機能を向上させる上で、研究コミュニティにとって重要なリソースとして機能します。

要約(オリジナル)

Mathematical reasoning, a core aspect of human cognition, is vital across many domains, from educational problem-solving to scientific advancements. As artificial general intelligence (AGI) progresses, integrating large language models (LLMs) with mathematical reasoning tasks is becoming increasingly significant. This survey provides the first comprehensive analysis of mathematical reasoning in the era of multimodal large language models (MLLMs). We review over 200 studies published since 2021, and examine the state-of-the-art developments in Math-LLMs, with a focus on multimodal settings. We categorize the field into three dimensions: benchmarks, methodologies, and challenges. In particular, we explore multimodal mathematical reasoning pipeline, as well as the role of (M)LLMs and the associated methodologies. Finally, we identify five major challenges hindering the realization of AGI in this domain, offering insights into the future direction for enhancing multimodal reasoning capabilities. This survey serves as a critical resource for the research community in advancing the capabilities of LLMs to tackle complex multimodal reasoning tasks.

arxiv情報

著者 Yibo Yan,Jiamin Su,Jianxiang He,Fangteng Fu,Xu Zheng,Yuanhuiyi Lyu,Kun Wang,Shen Wang,Qingsong Wen,Xuming Hu
発行日 2024-12-16 16:21:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク