要約
大規模言語モデル (LLM) は継続的に進歩しているため、その拡張機能を効果的に評価し、改善の余地がある領域を特定するには、新しいベンチマークを作成することが不可欠です。
この研究は、最先端の LLM の新しい機能であるマルチイメージ推論に焦点を当てています。
複数の画像を使用して LLM の推論能力を評価するために設計されたデータセットである ReMI を紹介します。
このデータセットには、数学、物理学、論理、コード、表/チャートの理解、空間的および時間的推論などのさまざまな推論ドメインにわたる、多様な範囲のタスクが含まれています。
また、複数画像推論シナリオに見られる幅広い特性もカバーしています。
私たちは ReMI を使用していくつかの最先端の LLM のベンチマークを行ったところ、そのパフォーマンスと人間レベルの熟練度の間に大きなギャップがあることがわかりました。
これは、複数画像推論における課題とさらなる研究の必要性を浮き彫りにしています。
私たちの分析では、さまざまなモデルの長所と短所も明らかになり、現在達成可能な推論の種類と将来のモデルに改善が必要な領域が明らかになります。
この分野でのさらなる研究を促進するために、私たちは ReMI を一般公開します: https://huggingface.co/datasets/mehrankzemi/ReMI。
要約(オリジナル)
With the continuous advancement of large language models (LLMs), it is essential to create new benchmarks to effectively evaluate their expanding capabilities and identify areas for improvement. This work focuses on multi-image reasoning, an emerging capability in state-of-the-art LLMs. We introduce ReMI, a dataset designed to assess LLMs’ ability to Reason with Multiple Images. This dataset encompasses a diverse range of tasks, spanning various reasoning domains such as math, physics, logic, code, table/chart understanding, and spatial and temporal reasoning. It also covers a broad spectrum of characteristics found in multi-image reasoning scenarios. We have benchmarked several cutting-edge LLMs using ReMI and found a substantial gap between their performance and human-level proficiency. This highlights the challenges in multi-image reasoning and the need for further research. Our analysis also reveals the strengths and weaknesses of different models, shedding light on the types of reasoning that are currently attainable and areas where future models require improvement. To foster further research in this area, we are releasing ReMI publicly: https://huggingface.co/datasets/mehrankazemi/ReMI.
arxiv情報
著者 | Mehran Kazemi,Nishanth Dikkala,Ankit Anand,Petar Devic,Ishita Dasgupta,Fangyu Liu,Bahare Fatemi,Pranjal Awasthi,Dee Guo,Sreenivas Gollapudi,Ahmed Qureshi |
発行日 | 2024-06-13 14:37:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google