要約
GPT-4 とそのバリアント、および GitHub Copilot、ChatGPT、Tabnine などの生成 AI 支援コーディング ツールを含む大規模言語モデルの最近の進歩により、ソフトウェア開発は大きく変わりました。
このペーパーでは、これらのイノベーションが生産性とソフトウェア テスト開発の指標にどのような影響を与えるかを分析します。
これらのツールを使用すると、開発者は展開前に人間の介入を最小限に抑えて完全なソフトウェア プログラムを生成できます。
ただし、開発者による徹底的なレビューとテストは依然として重要です。
テストを単体テスト、統合テスト、エンドツーエンド テストに分類するテスト ピラミッドの概念を利用して、オープンソース モジュールの単体テストを生成および比較することで、3 つの人気のある AI コーディング アシスタントを評価します。
私たちの調査結果は、AI によって生成されたテストが元のテストと同等の品質であることを示しており、ツール間の使用法や結果の違いが浮き彫りになっています。
この研究は、自動テストにおける AI アシスタント ツールの理解と機能を強化します。
要約(オリジナル)
Recent advancements in large language models, including GPT-4 and its variants, and Generative AI-assisted coding tools like GitHub Copilot, ChatGPT, and Tabnine, have significantly transformed software development. This paper analyzes how these innovations impact productivity and software test development metrics. These tools enable developers to generate complete software programs with minimal human intervention before deployment. However, thorough review and testing by developers are still crucial. Utilizing the Test Pyramid concept, which categorizes tests into unit, integration, and end-to-end tests, we evaluate three popular AI coding assistants by generating and comparing unit tests for opensource modules. Our findings show that AI-generated tests are of equivalent quality to original tests, highlighting differences in usage and results among the tools. This research enhances the understanding and capabilities of AI-assistant tools in automated testing.
arxiv情報
著者 | Vijay Joshi,Iver Band |
発行日 | 2024-11-04 17:52:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google