Comparing Software Developers with ChatGPT: An Empirical Investigation

要約

特にソフトウェア エンジニアリング (SE) タスクにおける自動化の出現により、理論から現実へと移行しました。
プロジェクト管理、モデリング、テスト、開発などの分野の問題に対処するために人工知能を適用して成功したことは、数多くの学術論文で文書化されています。
最近のイノベーションは、ML を組み込んだチャットボットである ChatGPT の導入であり、プログラミング コードの生成と、開発者とテスターそれぞれのためのソフトウェア テスト戦略の策定に熟練したリソースとして宣伝されています。
AI ベースの計算により生産性が向上し、ソフトウェア開発においてソフトウェア エンジニアの代替が可能になるという憶測もありますが、現時点ではこれを検証する実証的証拠が不足しています。
さらに、AI システムの精度向上に主な焦点が当てられているにもかかわらず、エネルギー効率、脆弱性、公平性 (つまり、人間の偏見)、安全性などの非機能要件には十分な注意が払われていないことがよくあります。
この論文では、さまざまな評価基準を考慮したソフトウェア エンジニアと AI ベースのソリューションの包括的な比較が、人間とマシンのコラボレーションを促進し、AI ベースの手法の信頼性を高め、人間または AI に対するタスクの適合性を理解する上で極めて重要であると主張しています。
さらに、協力的な作業構造と人間参加型プロセスの効果的な実装が促進されます。
このペーパーでは実証的な調査を実施し、ソフトウェア エンジニアと ChatGPT などの AI システムのパフォーマンスをさまざまな評価基準にわたって比較しています。
この実証研究には、ChatGPT で生成されたコードと、開発者が作成して Leetcode にアップロードしたコードを評価するケースが含まれています。

要約(オリジナル)

The advent of automation in particular Software Engineering (SE) tasks has transitioned from theory to reality. Numerous scholarly articles have documented the successful application of Artificial Intelligence to address issues in areas such as project management, modeling, testing, and development. A recent innovation is the introduction of ChatGPT, an ML-infused chatbot, touted as a resource proficient in generating programming codes and formulating software testing strategies for developers and testers respectively. Although there is speculation that AI-based computation can increase productivity and even substitute software engineers in software development, there is currently a lack of empirical evidence to verify this. Moreover, despite the primary focus on enhancing the accuracy of AI systems, non-functional requirements including energy efficiency, vulnerability, fairness (i.e., human bias), and safety frequently receive insufficient attention. This paper posits that a comprehensive comparison of software engineers and AI-based solutions, considering various evaluation criteria, is pivotal in fostering human-machine collaboration, enhancing the reliability of AI-based methods, and understanding task suitability for humans or AI. Furthermore, it facilitates the effective implementation of cooperative work structures and human-in-the-loop processes. This paper conducts an empirical investigation, contrasting the performance of software engineers and AI systems, like ChatGPT, across different evaluation metrics. The empirical study includes a case of assessing ChatGPT-generated code versus code produced by developers and uploaded in Leetcode.

arxiv情報

著者 Nathalia Nascimento,Paulo Alencar,Donald Cowan
発行日 2023-05-19 17:25:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE パーマリンク