要約
自然言語処理 (NLP) の進歩は、トランスフォーマーベースの大規模言語モデル (LLM) の開発によって大幅に促進されました。
これらのモデルは、特にコード生成において NLP タスクに革命をもたらし、開発者が効率を高めてソフトウェアを作成できるように支援します。
これらの進歩にもかかわらず、コード スニペットの生成と効果的なテスト ケースの生成および実行のバランスをとるという課題は依然として残っています。
これらの問題に対処するために、この文書では、プログラマ エージェント、テスト設計者エージェント、およびテスト実行者エージェントという特殊なエージェントを備えたマルチエージェント フレームワークで構成される新しいソリューションであるマルチエージェント アシスタント コード生成 (AgentCoder) を紹介します。
コーディング手順中、プログラマー エージェントは、テスト実行エージェントのフィードバックに基づいてコードの生成と改良に集中します。
テスト設計エージェントは生成されたコードのテスト ケースを生成し、テスト実行エージェントはテスト ケースを使用してコードを実行し、プログラマにフィードバックを書き込みます。
この協調システムにより、単一エージェント モデルや従来の方法論の制限を超え、堅牢なコード生成が保証されます。
9 つのコード生成モデルと 12 の拡張アプローチに関する広範な実験により、既存のコード生成モデルを超える AgentCoder の優れたパフォーマンスと、さまざまなベンチマークにわたる迅速なエンジニアリング技術が実証されました。
たとえば、AgentCoder は、GPT-3.5 を使用する HumanEval-ET および MBPP-ET で 77.4% および 89.1% pass@1 を達成しますが、SOTA ベースラインでは 69.5% および 63.0% しか得られません。
要約(オリジナル)
The advancement of natural language processing (NLP) has been significantly boosted by the development of transformer-based large language models (LLMs). These models have revolutionized NLP tasks, particularly in code generation, aiding developers in creating software with enhanced efficiency. Despite their advancements, challenges in balancing code snippet generation with effective test case generation and execution persist. To address these issues, this paper introduces Multi-Agent Assistant Code Generation (AgentCoder), a novel solution comprising a multi-agent framework with specialized agents: the programmer agent, the test designer agent, and the test executor agent. During the coding procedure, the programmer agent will focus on the code generation and refinement based on the test executor agent’s feedback. The test designer agent will generate test cases for the generated code, and the test executor agent will run the code with the test cases and write the feedback to the programmer. This collaborative system ensures robust code generation, surpassing the limitations of single-agent models and traditional methodologies. Our extensive experiments on 9 code generation models and 12 enhancement approaches showcase AgentCoder’s superior performance over existing code generation models and prompt engineering techniques across various benchmarks. For example, AgentCoder achieves 77.4% and 89.1% pass@1 in HumanEval-ET and MBPP-ET with GPT-3.5, while SOTA baselines obtain only 69.5% and 63.0%.
arxiv情報
著者 | Dong Huang,Qingwen Bu,Jie M. Zhang,Michael Luck,Heming Cui |
発行日 | 2023-12-20 13:22:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google