要約
コーディング タスクは、高レベルの命令の理解、複雑な推論、汎用人工知能を進歩させるための核となる機能である関数型プログラムの実装を必要とするため、大規模言語モデル (LLM) を評価するのに役立ちます。
LLM を視覚認識および理解機能で拡張する大規模マルチモーダル モデル (LMM) の進歩にも関わらず、特に視覚的推論を重視するタスクにおいて、これらのモデルを厳密に評価するコーディング ベンチマークが依然として著しく不足しています。
このギャップに対処するために、コード生成を通じて LMM の視覚的理解と推論能力を評価するために特別に設計された、新しくて軽量なベンチマークである HumanEval-V を導入します。
HumanEval-V には、CodeForces や Stack Overflow などのプラットフォームから派生した、慎重に作成された 108 個の入門レベルの Python コーディング タスクが含まれています。
各タスクは、ソースとの区別を確実にするために再描画された視覚要素を使用して、元の問題のコンテキストとアルゴリズム パターンを変更することによって適応され、潜在的なデータ漏洩を防ぎます。
LMM は、提供されたビジュアル コンテキストと、タスク要件の概要を示す事前定義された Python 関数シグネチャに基づいてコード ソリューションを完成する必要があります。
すべてのタスクには、モデルによって生成されたソリューションの完全かつ信頼性の高い評価を保証するために、細心の注意を払って手作りされたテスト ケースが装備されています。
HumanEval-V を使用して 19 個の最先端の LMM を評価し、重大な課題を明らかにしました。
GPT-4o のような独自のモデルは、合格 @1 が 13%、合格 @10 で 36.4% しか達成できませんが、パラメータが 70B のオープンウェイト モデルのスコアは合格 @1 4% 未満です。
アブレーション研究により、視覚推論とコーディング能力における現在の LMM の限界がさらに明らかになりました。
これらの結果は、LMM の機能を強化するための将来の研究の重要な領域を強調しています。
コードとベンチマークは https://github.com/HumanEval-V/HumanEval-V-Benchmark でオープンソース化されています。
要約(オリジナル)
Coding tasks have been valuable for evaluating Large Language Models (LLMs), as they demand the comprehension of high-level instructions, complex reasoning, and the implementation of functional programs — core capabilities for advancing Artificial General Intelligence. Despite the progress in Large Multimodal Models (LMMs), which extend LLMs with visual perception and understanding capabilities, there remains a notable lack of coding benchmarks that rigorously assess these models, particularly in tasks that emphasize visual reasoning. To address this gap, we introduce HumanEval-V, a novel and lightweight benchmark specifically designed to evaluate LMMs’ visual understanding and reasoning capabilities through code generation. HumanEval-V includes 108 carefully crafted, entry-level Python coding tasks derived from platforms like CodeForces and Stack Overflow. Each task is adapted by modifying the context and algorithmic patterns of the original problems, with visual elements redrawn to ensure distinction from the source, preventing potential data leakage. LMMs are required to complete the code solution based on the provided visual context and a predefined Python function signature outlining the task requirements. Every task is equipped with meticulously handcrafted test cases to ensure a thorough and reliable evaluation of model-generated solutions. We evaluate 19 state-of-the-art LMMs using HumanEval-V, uncovering significant challenges. Proprietary models like GPT-4o achieve only 13% pass@1 and 36.4% pass@10, while open-weight models with 70B parameters score below 4% pass@1. Ablation studies further reveal the limitations of current LMMs in vision reasoning and coding capabilities. These results underscore key areas for future research to enhance LMMs’ capabilities. We have open-sourced our code and benchmark at https://github.com/HumanEval-V/HumanEval-V-Benchmark.
arxiv情報
著者 | Fengji Zhang,Linquan Wu,Huiyu Bai,Guancheng Lin,Xiao Li,Xiao Yu,Yue Wang,Bei Chen,Jacky Keung |
発行日 | 2024-10-24 13:33:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google