要約
Real World Developmentは、実装をモジュラーコンポーネントに整理し、事前に実装されたコードを繰り返し再利用することにより、読みやすく、拡張可能で、テスト可能なコードを要求します。
この反復的なマルチターンプロセスコードフローと呼び、CodeFlowBenchを導入します。これは、CodeFlowを実行するLLMSの能力を包括的に評価するために設計された最初のベンチマークです。
CodeFlowbenchは、コードフォースから描かれた5258の問題で構成され、各問題をその依存関係ツリーに基づいて一連の関数レベルのサブ問題に分解する自動化されたパイプラインを介して継続的に更新され、各サブ問題は単位テストとペアになります。
さらに、モデルのパフォーマンスを評価するためにマルチターンコードの再利用に合わせたタスクとメトリックを使用した新しい評価フレームワークを提案します。
マルチターンパターンとシングルターンパターンの両方で、さまざまなLLMの実験で。
コードフローベンチでのモデルのパフォーマンスが低いことを観察し、反復的なコードフローシナリオで大幅にパフォーマンスが低下します。
たとえば、O1-MINIは、マルチターンパターンで20.8%のパス@1を達成し、シングルターンパターンでは37.8%です。
さらなる分析により、異なるモデルは異なる依存関係の深さで優れているが、すべてが構造的に複雑な問題を正しく解決するのに苦労しており、現在のLLMがコードフローを実行する際にコード生成ツールとして機能するという課題を強調することを示しています。
全体として、CodeFlowBenchは、マルチターン、反復コード生成のLLM機能に関する包括的なベンチマークと新しい洞察を提供し、コード生成タスクの将来の進歩を導きます。
要約(オリジナル)
Real world development demands code that is readable, extensible, and testable by organizing the implementation into modular components and iteratively reuse pre-implemented code. We term this iterative, multi-turn process codeflow and introduce CodeFlowBench, the first benchmark designed for comprehensively evaluating LLMs’ ability to perform codeflow, namely to implement new functionality by reusing existing functions over multiple turns. CodeFlowBench comprises 5258 problems drawn from Codeforces and is continuously updated via an automated pipeline that decomposes each problem into a series of function-level subproblems based on its dependency tree and each subproblem is paired with unit tests. We further propose a novel evaluation framework with tasks and metrics tailored to multi-turn code reuse to assess model performance. In experiments across various LLMs under both multi-turn and single-turn patterns. We observe models’ poor performance on CodeFlowBench, with a substantial performance drop in the iterative codeflow scenario. For instance, o1-mini achieves a pass@1 of 20.8% in multi-turn pattern versus 37.8% in single-turn pattern. Further analysis shows that different models excel at different dependency depths, yet all struggle to correctly solve structurally complex problems, highlighting challenges for current LLMs to serve as code generation tools when performing codeflow. Overall, CodeFlowBench offers a comprehensive benchmark and new insights into LLM capabilities for multi-turn, iterative code generation, guiding future advances in code generation tasks.
arxiv情報
著者 | Sizhe Wang,Zhengren Wang,Dongsheng Ma,Yongan Yu,Rui Ling,Zhiyu Li,Feiyu Xiong,Wentao Zhang |
発行日 | 2025-04-30 15:45:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google