DI-BENCH: Benchmarking Large Language Models on Dependency Inference with Testable Repositories at Scale

要約

大規模言語モデルではソフトウェア開発の自動化が進んでいますが、依存関係を正しく推測すること、つまりリポジトリを正常に実行するために必要な内部コンポーネントと外部パッケージを識別することは依然として課題です。
既存の調査では、生成されたリポジトリで観察されたランタイム エラーの 40\% 以上が依存関係関連の問題によって引き起こされていることが強調されています。
これに対処するために、依存関係推論における LLM の能力を評価するために特別に設計された大規模なベンチマークおよび評価フレームワークである DI-BENCH を導入します。
このベンチマークには、Python、C#、Rust、JavaScript にわたるテスト環境を備えた 581 のリポジトリが含まれています。
テキストおよび実行ベースのメトリクスを使用した広範な実験により、現在の最高パフォーマンスのモデルでは 42.9% の実行成功率しか達成できず、改善の余地が大きいことが明らかになりました。
DI-BENCH は、リポジトリ上の LLM パフォーマンスを評価するための新しい視点を確立し、より堅牢なエンドツーエンドのソフトウェア合成への道を開きます。

要約(オリジナル)

Large Language Models have advanced automated software development, however, it remains a challenge to correctly infer dependencies, namely, identifying the internal components and external packages required for a repository to successfully run. Existing studies highlight that dependency-related issues cause over 40\% of observed runtime errors on the generated repository. To address this, we introduce DI-BENCH, a large-scale benchmark and evaluation framework specifically designed to assess LLMs’ capability on dependency inference. The benchmark features 581 repositories with testing environments across Python, C#, Rust, and JavaScript. Extensive experiments with textual and execution-based metrics reveal that the current best-performing model achieves only a 42.9% execution pass rate, indicating significant room for improvement. DI-BENCH establishes a new viewpoint for evaluating LLM performance on repositories, paving the way for more robust end-to-end software synthesis.

arxiv情報

著者 Linghao Zhang,Junhao Wang,Shilin He,Chaoyun Zhang,Yu Kang,Bowen Li,Jiaheng Wen,Chengxing Xie,Maoquan Wang,Yufan Huang,Elsie Nallipogu,Qingwei Lin,Yingnong Dang,Saravan Rajmohan,Dongmei Zhang,Qi Zhang
発行日 2025-01-23 14:27:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE パーマリンク