Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots

要約

マルチモーダル大規模言語モデル (MLLM) の目覚ましい進歩は、視覚的なコンテキストでの優れたパフォーマンスにより大きな注目を集めています。
ただし、視覚的な図を実行可能なコードに変換する機能は、十分に評価されていません。
これに対処するために、MLLM の公平かつ詳細な評価のために設計された包括的なビジュアル コーディング ベンチマークである Plot2Code を導入します。
私たちは、公開されている matplotlib ギャラリーから 6 種類のプロットにわたって、手動で選択された 132 個の高品質の matplotlib プロットを慎重に収集しています。
各プロットについて、そのソース コードと、GPT-4 によって要約された説明手順が注意深く提供されます。
このアプローチにより、Plot2Code はさまざまな入力モダリティにわたる MLLM のコード機能を広範囲に評価できるようになります。
さらに、出力コードとレンダリングされたイメージをきめ細かく評価するために、コードパス率、テキスト一致率、GPT-4V の総合評価を含む 3 つの自動評価指標を提案します。
単純に合否を判断するのではなく、生成された画像と参照画像を総合的に判断する GPT-4V を採用しており、人間の評価と一致することが実証されています。
評価結果には、独自の GPT-4V、Gemini-Pro、オープンソースの Mini-Gemini など 14 の MLLM の分析が含まれており、Plot2Code によってもたらされる大きな課題が浮き彫りになっています。
Plot2Code を使用すると、既存の MLLM のほとんどが、テキストの指示に大きく依存しており、テキスト密度の高いプロットのビジュアル コーディングに苦労していることがわかります。
Plot2Code によるビジュアル コーディングの評価結果が、今後の MLLM の開発に役立つことを期待しています。
Plot2Code に関連するすべてのデータは、https://huggingface.co/datasets/TencentARC/Plot2Code で入手できます。

要約(オリジナル)

The remarkable progress of Multi-modal Large Language Models (MLLMs) has attracted significant attention due to their superior performance in visual contexts. However, their capabilities in turning visual figure to executable code, have not been evaluated thoroughly. To address this, we introduce Plot2Code, a comprehensive visual coding benchmark designed for a fair and in-depth assessment of MLLMs. We carefully collect 132 manually selected high-quality matplotlib plots across six plot types from publicly available matplotlib galleries. For each plot, we carefully offer its source code, and an descriptive instruction summarized by GPT-4. This approach enables Plot2Code to extensively evaluate MLLMs’ code capabilities across various input modalities. Furthermore, we propose three automatic evaluation metrics, including code pass rate, text-match ratio, and GPT-4V overall rating, for a fine-grained assessment of the output code and rendered images. Instead of simply judging pass or fail, we employ GPT-4V to make an overall judgement between the generated and reference images, which has been shown to be consistent with human evaluation. The evaluation results, which include analyses of 14 MLLMs such as the proprietary GPT-4V, Gemini-Pro, and the open-sourced Mini-Gemini, highlight the substantial challenges presented by Plot2Code. With Plot2Code, we reveal that most existing MLLMs struggle with visual coding for text-dense plots, heavily relying on textual instruction. We hope that the evaluation results from Plot2Code on visual coding will guide the future development of MLLMs. All data involved with Plot2Code are available at https://huggingface.co/datasets/TencentARC/Plot2Code.

arxiv情報

著者 Chengyue Wu,Yixiao Ge,Qiushan Guo,Jiahao Wang,Zhixuan Liang,Zeyu Lu,Ying Shan,Ping Luo
発行日 2024-05-13 17:59:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク