要約
大規模なマルチモーダルモデル(LMM)の視覚的に接地されたコード生成機能を評価することを目的とした新しいベンチマークであるChartmimを紹介します。
Chartmimimは、情報集約型の視覚チャートとテキスト命令を入力として利用するため、LMMがチャートレンダリングに対応するコードを生成する必要があります。
ChartMimicには、さまざまなドメイン(物理学、コンピューターサイエンス、経済学など)の科学論文に見られる本物のチャートユースケースを表す4,800の人間キュレーション(図、指導、コード)トリプレットが含まれています。
これらのチャートは、18の通常のタイプと4つの高度なタイプに及び、201のサブカテゴリに多様化します。
さらに、出力コードとレンダリングされたチャートの自動評価を提供するために、マルチレベルの評価メトリックを提案します。
既存のコード生成ベンチマークとは異なり、CHARTMIMICは、視覚的理解、コード生成、およびクロスモーダル推論を含む、認知能力のブレンドを調和させるLMMの能力を評価することに重点を置いています。
3ドルの独自モデルと14のオープンウェイトモデルの評価は、Chartmimicによってもたらされる実質的な課題を強調しています。
高度なGPT-4OであるInternvl2-llama3-76bでさえ、それぞれ82.2および61.6の直接的な模倣およびカスタマイズされた模倣タスクにわたって平均スコアを達成し、改善の重要な余地を示しています。
ChartmimicがLMMの開発を促し、人工的な一般情報の追求を進めると予想しています。
要約(オリジナル)
We introduce a new benchmark, ChartMimic, aimed at assessing the visually-grounded code generation capabilities of large multimodal models (LMMs). ChartMimic utilizes information-intensive visual charts and textual instructions as inputs, requiring LMMs to generate the corresponding code for chart rendering. ChartMimic includes 4,800 human-curated (figure, instruction, code) triplets, which represent the authentic chart use cases found in scientific papers across various domains (e.g., Physics, Computer Science, Economics, etc). These charts span 18 regular types and 4 advanced types, diversifying into 201 subcategories. Furthermore, we propose multi-level evaluation metrics to provide an automatic and thorough assessment of the output code and the rendered charts. Unlike existing code generation benchmarks, ChartMimic places emphasis on evaluating LMMs’ capacity to harmonize a blend of cognitive capabilities, encompassing visual understanding, code generation, and cross-modal reasoning. The evaluation of $3$ proprietary models and 14 open-weight models highlights the substantial challenges posed by ChartMimic. Even the advanced GPT-4o, InternVL2-Llama3-76B only achieved an average score across Direct Mimic and Customized Mimic tasks of 82.2 and 61.6, respectively, indicating significant room for improvement. We anticipate that ChartMimic will inspire the development of LMMs, advancing the pursuit of artificial general intelligence.
arxiv情報
| 著者 | Cheng Yang,Chufan Shi,Yaxin Liu,Bo Shui,Junjie Wang,Mohan Jing,Linran Xu,Xinyu Zhu,Siheng Li,Yuxiang Zhang,Gongye Liu,Xiaomei Nie,Deng Cai,Yujiu Yang |
| 発行日 | 2025-02-28 13:33:00+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google