PECC: Problem Extraction and Coding Challenges

要約

大規模言語モデル (LLM) の最近の進歩により、コード生成、問題解決、推論などのさまざまなタスクにわたってその卓越した能力が実証されました。
既存のベンチマークはタスクを個別に評価しますが、LLM が散文形式のタスクを理解し、根本的な問題を特定し、適切なコード ソリューションを生成できる程度はまだ解明されていません。
このギャップに対処するために、アドベント オブ コード (AoC) の課題と 2396 問題を含むプロジェクト オイラーから派生した新しいベンチマークである PECC を紹介します。
従来のベンチマークとは異なり、PECC では、LLM が物語に埋め込まれた問題を解釈し、要件を抽出し、実行可能コードを生成する必要があります。
私たちのデータセットの重要な特徴は、チャットベースの評価における自然言語プロンプトによって追加された複雑さであり、現実世界の指示の曖昧さを反映しています。
結果は、ナラティブ問題とニュートラル問題の間でモデルのパフォーマンスが異なることを示しており、GPT-3.5-Turbo によるオイラー数学ベースのサブセットの特定の課題では、AoC 課題の 50% を通過し、オイラー問題ではわずか 8% を通過しました。
LLM の機能の限界を調査することで、私たちのベンチマークは、普遍的な問題解決手段として LLM のその後の進歩を監視および評価するためのフレームワークを提供します。

要約(オリジナル)

Recent advancements in large language models (LLMs) have showcased their exceptional abilities across various tasks, such as code generation, problem-solving and reasoning. Existing benchmarks evaluate tasks in isolation, yet the extent to which LLMs can understand prose-style tasks, identify the underlying problems, and then generate appropriate code solutions is still unexplored. Addressing this gap, we introduce PECC, a novel benchmark derived from Advent Of Code (AoC) challenges and Project Euler, including 2396 problems. Unlike conventional benchmarks, PECC requires LLMs to interpret narrative-embedded problems, extract requirements, and generate executable code. A key feature of our dataset is the complexity added by natural language prompting in chat-based evaluations, mirroring real-world instruction ambiguities. Results show varying model performance between narrative and neutral problems, with specific challenges in the Euler math-based subset with GPT-3.5-Turbo passing 50% of the AoC challenges and only 8% on the Euler problems. By probing the limits of LLMs’ capabilities, our benchmark provides a framework to monitor and assess the subsequent progress of LLMs as a universal problem solver.

arxiv情報

著者 Patrick Haller,Jonas Golde,Alan Akbik
発行日 2024-04-29 15:02:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク