Who Answers It Better? An In-Depth Analysis of ChatGPT and Stack Overflow Answers to Software Engineering Questions

要約

過去 10 年間、Q&A プラットフォームは、プログラマーがオンラインで助けを求める方法において重要な役割を果たしてきました。
しかし、ChatGPT の出現により、このパターンに変化が生じています。
ChatGPT の人気にもかかわらず、ソフトウェア エンジニアリングのクエリに対する応答の品質と使いやすさに関する徹底的な調査は行われていません。
このギャップに対処するために、Stack Overflow (SO) からの 517 の質問に対する ChatGPT の回答の包括的な分析を実施しました。
これらの回答の正確さ、一貫性、包括性、簡潔さを評価しました。
さらに、ChatGPT の回答の言語的および人間的側面についての洞察を得るために、広範な言語分析とユーザー調査を実施しました。
私たちの調査では、ChatGPT の回答の 52% に不正確な部分があり、77% が冗長であることが判明しました。
それにもかかわらず、その包括性と明確な言語スタイルにより、ユーザーは依然として 39.34% の確率で ChatGPT の応答を好みます。
これらの発見は、ChatGPT における細心の注意を払ったエラー修正の必要性を強調すると同時に、一見正確に見える回答に関連する潜在的なリスクについてユーザーの意識を高めます。

要約(オリジナル)

Over the last decade, Q&A platforms have played a crucial role in how programmers seek help online. The emergence of ChatGPT, however, is causing a shift in this pattern. Despite ChatGPT’s popularity, there hasn’t been a thorough investigation into the quality and usability of its responses to software engineering queries. To address this gap, we undertook a comprehensive analysis of ChatGPT’s replies to 517 questions from Stack Overflow (SO). We assessed the correctness, consistency, comprehensiveness, and conciseness of these responses. Additionally, we conducted an extensive linguistic analysis and a user study to gain insights into the linguistic and human aspects of ChatGPT’s answers. Our examination revealed that 52% of ChatGPT’s answers contain inaccuracies and 77% are verbose. Nevertheless, users still prefer ChatGPT’s responses 39.34% of the time due to their comprehensiveness and articulate language style. These findings underscore the need for meticulous error correction in ChatGPT while also raising awareness among users about the potential risks associated with seemingly accurate answers.

arxiv情報

著者 Samia Kabir,David N. Udo-Imeh,Bonan Kou,Tianyi Zhang
発行日 2023-08-10 16:21:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE パーマリンク