Why Stop at One Error? Benchmarking LLMs as Data Science Code Debuggers for Multi-Hop and Multi-Bug Errors

要約

LLMはソフトウェア開発を変換していますが、現在のコード生成およびコード修理ベンチマークは、主に単純な単一エラーのケースで構文的および機能的正しさを評価しています。
複雑なデータサイエンスコードのランタイムの論理エラーを自律的に見つけて修正するLLMSの機能は、ほとんど未踏のままです。
このギャップに対処するために、DSDBench:データサイエンスデバッグベンチマークを紹介します。これは、データサイエンスコードのデバッグにおけるマルチホップエラートレースとマルチバグ検出に関するLLMSの系統的評価のための最初のベンチマークです。
DSDBenchは、DabenchやMatplotbenchなどの既存のデータサイエンスタスクベンチマークからのデータセットを適合させます。これは、自動的に合成されたマルチホップ、マルチバグコードスニペットを備えた現実的なデータサイエンスデバッグタスクを備えています。
DSDBenchには、741の原因効果エラーペアとランタイムエラーメッセージを備えた1,117の注釈付きサンプルが含まれています。
DSDBenchでの最先端のLLMの評価は、重要なパフォーマンスギャップを示し、データサイエンスコードの論理ランタイムエラーのデバッグの課題を強調しています。
DSDBenchは、LLMSのデバッグと推論機能を評価および改善するための重要なリソースを提供し、将来より信頼性の高いAIアシストデータサイエンスを可能にします。DSDBenchはhttps://github.com/kevincl16/dsdbenchで公開されています。

要約(オリジナル)

LLMs are transforming software development, yet current code generation and code repair benchmarks mainly assess syntactic and functional correctness in simple, single-error cases. LLMs’ capabilities to autonomously find and fix runtime logical errors in complex data science code remain largely unexplored. To address this gap, we introduce DSDBench: the Data Science Debugging Benchmark, the first benchmark for systematic evaluation of LLMs on multi-hop error tracing and multi-bug detection in data science code debugging. DSDBench adapts datasets from existing data science task benchmarks, such as DABench and MatPlotBench, featuring realistic data science debugging tasks with automatically synthesized multi-hop, multi-bug code snippets. DSDBench includes 1,117 annotated samples with 741 cause-effect error pairs and runtime error messages. Evaluations of state-of-the-art LLMs on DSDBench show significant performance gaps, highlighting challenges in debugging logical runtime errors in data science code. DSDBench offers a crucial resource to evaluate and improve LLMs’ debugging and reasoning capabilities, enabling more reliable AI-assisted data science in the future.DSDBench is publicly available at https://github.com/KevinCL16/DSDBench.

arxiv情報

著者 Zhiyu Yang,Shuo Wang,Yukun Yan,Yang Deng
発行日 2025-03-28 12:46:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク