要約
大規模マルチモーダル モデル (LMM) の視覚に基づいたコード生成機能を評価することを目的とした、新しいベンチマーク ChartMimic を紹介します。
ChartMimic は、情報集約型のビジュアル チャートとテキスト命令を入力として利用し、チャート レンダリングに対応するコードを生成するために LMM を必要とします。
ChartMimic には、人間が厳選した 1,000 個のトリプレット (図、命令、コード) が含まれており、さまざまな分野 (物理学、コンピューター サイエンス、経済学など) の科学論文で見つかった本物のチャートの使用例を表しています。
これらのチャートは 18 の通常タイプと 4 つの高度なタイプにまたがり、191 のサブカテゴリーに多様化しています。
さらに、出力コードとレンダリングされたチャートの自動かつ徹底的な評価を提供するマルチレベルの評価メトリクスを提案します。
既存のコード生成ベンチマークとは異なり、ChartMimic は視覚的理解、コード生成、クロスモーダル推論を含む認知機能のブレンドを調和させる LMM の能力を評価することに重点を置いています。
3 つの独自モデルと 11 の無差別モデルの評価により、ChartMimic によってもたらされる大きな課題が浮き彫りになります。
高度な GPT-4V、Claude-3-opus でさえ、平均スコアがそれぞれ 73.2 と 53.7 にとどまっており、改善の余地が大きいことが示されています。
私たちは、ChartMimic が LMM の開発を刺激し、汎用人工知能の追求を進めることを期待しています。
要約(オリジナル)
We introduce a new benchmark, ChartMimic, aimed at assessing the visually-grounded code generation capabilities of large multimodal models (LMMs). ChartMimic utilizes information-intensive visual charts and textual instructions as inputs, requiring LMMs to generate the corresponding code for chart rendering. ChartMimic includes 1,000 human-curated (figure, instruction, code) triplets, which represent the authentic chart use cases found in scientific papers across various domains(e.g., Physics, Computer Science, Economics, etc). These charts span 18 regular types and 4 advanced types, diversifying into 191 subcategories. Furthermore, we propose multi-level evaluation metrics to provide an automatic and thorough assessment of the output code and the rendered charts. Unlike existing code generation benchmarks, ChartMimic places emphasis on evaluating LMMs’ capacity to harmonize a blend of cognitive capabilities, encompassing visual understanding, code generation, and cross-modal reasoning. The evaluation of 3 proprietary models and 11 open-weight models highlights the substantial challenges posed by ChartMimic. Even the advanced GPT-4V, Claude-3-opus only achieve an average score of 73.2 and 53.7, respectively, indicating significant room for improvement. We anticipate that ChartMimic will inspire the development of LMMs, advancing the pursuit of artificial general intelligence.
arxiv情報
著者 | Chufan Shi,Cheng Yang,Yaxin Liu,Bo Shui,Junjie Wang,Mohan Jing,Linran Xu,Xinyu Zhu,Siheng Li,Yuxiang Zhang,Gongye Liu,Xiaomei Nie,Deng Cai,Yujiu Yang |
発行日 | 2024-06-14 12:10:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google