MMCode: Evaluating Multi-Modal Code Large Language Models with Visually Rich Programming Problems

要約

プログラミングでは多くの場合、詳細で複雑な仕様をコードに変換する必要があります。このプロセスでは、開発者は通常、概念をより効果的に伝えるために視覚補助を利用します。
大規模マルチモーダル モデルの最近の開発では、視覚的推論と数学的タスクにおいて顕著な能力が実証されていますが、これらのモデルがコード生成のために視覚要素を効果的に解釈できるかどうかを調査する研究はほとんど行われていません。
この目的を達成するために、視覚的に豊富なコンテキストでアルゴリズムの問​​題解決スキルを評価するための初のマルチモーダル コーディング データセットである MMCode を紹介します。
MMCode には、10 のコード コンペティション Web サイトから収集された現実世界のプログラミングの課題から収集された 3,548 の質問と 6,620 の画像が含まれており、推論能力の要求が非常に高いため、重大な課題が提示されています。
私たちの実験結果は、現在の最先端モデルではこれらの問題を解決するのに苦労していることを示しています。
この結果は、強力なビジョンコード モデルが不足していることを浮き彫りにしており、MMCode がこの分野の将来の研究のインスピレーションとして役立つことを願っています。
データとコードは https://github.com/happylkx/MMCode で公開されています。

要約(オリジナル)

Programming often involves converting detailed and complex specifications into code, a process during which developers typically utilize visual aids to more effectively convey concepts. While recent developments in Large Multimodal Models have demonstrated remarkable abilities in visual reasoning and mathematical tasks, there is little work on investigating whether these models can effectively interpret visual elements for code generation. To this end, we present MMCode, the first multi-modal coding dataset for evaluating algorithmic problem-solving skills in visually rich contexts. MMCode contains 3,548 questions and 6,620 images collected from real-world programming challenges harvested from 10 code competition websites, presenting significant challenges due to the extreme demand for reasoning abilities. Our experiment results show that current state-of-the-art models struggle to solve these problems. The results highlight the lack of powerful vision-code models, and we hope MMCode can serve as an inspiration for future works in this domain. The data and code are publicly available at https://github.com/happylkx/MMCode.

arxiv情報

著者 Kaixin Li,Yuchen Tian,Qisheng Hu,Ziyang Luo,Jing Ma
発行日 2024-04-15 06:15:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.SE パーマリンク