RepoST: Scalable Repository-Level Coding Environment Construction with Sandbox Testing

要約

トレーニングと評価の両方でリポジトリレベルのコード生成に実行フィードバックを提供する環境を構築するスケーラブルな方法であるRepostを提示します。
実行用のリポジトリ全体を構築することを目的とする既存の作業とは異なり、ヒューマンとLLMの両方にとって困難です。特定のターゲット関数とその依存関係をテスト用の個別のスクリプトに分離するサンドボックステストで実行フィードバックを提供します。
サンドボックステストにより、外部依存関係の複雑さが軽減され、環境を大規模に構築できます。
私たちの方法を使用して、832のリポジトリから7,415の機能を備えた大規模な列車セットであるRepost-Trainを構築します。
Repost-Trainが提供する実行フィードバックを使用したトレーニングは、HumanEvalで5.5%パス@1、Repoevalで3.5%パス@1のパフォーマンスゲインにつながります。
また、評価データセット、再投稿平均、およびベンチマーク12コード生成モデルを構築します。

要約(オリジナル)

We present RepoST, a scalable method to construct environments that provide execution feedback for repository-level code generation for both training and evaluation. Unlike existing works that aim to build entire repositories for execution, which is challenging for both human and LLMs, we provide execution feedback with sandbox testing, which isolates a given target function and its dependencies to a separate script for testing. Sandbox testing reduces the complexity of external dependencies and enables constructing environments at a large scale. We use our method to construct RepoST-Train, a large-scale train set with 7,415 functions from 832 repositories. Training with the execution feedback provided by RepoST-Train leads to a performance gain of 5.5% Pass@1 on HumanEval and 3.5% Pass@1 on RepoEval. We also build an evaluation dataset, RepoST-Eval, and benchmark 12 code generation models.

arxiv情報

著者 Yiqing Xie,Alex Xie,Divyanshu Sheth,Pengfei Liu,Daniel Fried,Carolyn Rose
発行日 2025-03-10 14:16:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE パーマリンク