要約
大規模なマルチモーダルモデル(LMM)は、画像を解釈する際に大きな不足を示し、いくつかの手段により、小さな子供や動物よりも空間認知が低下します。
それにもかかわらず、彼らは多くの人気のある視覚ベンチマークで高いスコアを達成し、ヘッドルームはモデルの進行の急増によって急速に侵食されます。
これに対処するために、より長い間関連性のある困難なベンチマークが差し迫った必要性があります。
私たちは、現代のフロンティアLMMにとって完全に不可能なZerobench-A軽量の視覚的推論ベンチマークを導入することにより、このアイデアをその限界に引き上げます。
私たちのベンチマークは、100の手動でキュレーションされた質問と334の困難なサブクエストで構成されています。
ゼロベンチで20のLMMを評価し、そのすべてが0.0%を獲得し、エラーを厳密に分析します。
視覚的理解の進歩を促進するために、Zerobenchを公開します。
要約(オリジナル)
Large Multimodal Models (LMMs) exhibit major shortfalls when interpreting images and, by some measures, have poorer spatial cognition than small children or animals. Despite this, they attain high scores on many popular visual benchmarks, with headroom rapidly eroded by an ongoing surge of model progress. To address this, there is a pressing need for difficult benchmarks that remain relevant for longer. We take this idea to its limit by introducing ZeroBench-a lightweight visual reasoning benchmark that is entirely impossible for contemporary frontier LMMs. Our benchmark consists of 100 manually curated questions and 334 less difficult subquestions. We evaluate 20 LMMs on ZeroBench, all of which score 0.0%, and rigorously analyse the errors. To encourage progress in visual understanding, we publicly release ZeroBench.
arxiv情報
著者 | Jonathan Roberts,Mohammad Reza Taesiri,Ansh Sharma,Akash Gupta,Samuel Roberts,Ioana Croitoru,Simion-Vlad Bogolin,Jialu Tang,Florian Langer,Vyas Raina,Vatsal Raina,Hanyi Xiong,Vishaal Udandarao,Jingyi Lu,Shiyang Chen,Sam Purkis,Tianshuo Yan,Wenye Lin,Gyungin Shin,Qiaochu Yang,Anh Totti Nguyen,David I. Atkinson,Aaditya Baranwal,Alexandru Coca,Mikah Dang,Sebastian Dziadzio,Jakob D. Kunz,Kaiqu Liang,Alexander Lo,Brian Pulfer,Steven Walton,Charig Yang,Kai Han,Samuel Albanie |
発行日 | 2025-03-06 17:45:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google