要約
過去 10 年間、Q&A プラットフォームはプログラマーの Web ヘルプ検索行動に不可欠な部分を占めてきました。
しかし、最近の ChatGPT の導入により、Web でヘルプを求める行動のパラダイムが変化しています。
ChatGPT の人気にもかかわらず、ソフトウェア エンジニアリングの質問に対する ChatGPT の回答の特性や使いやすさを評価するための包括的な研究は行われていません。
このギャップを埋めるために、517 件のスタック オーバーフロー (SO) 質問に対する ChatGPT の回答の最初の詳細な分析を実施し、ChatGPT の回答の正確性、一貫性、包括性、および簡潔さを検査しました。
さらに、ChatGPT の回答の特徴を言語的および人間的側面から理解するために、大規模な言語分析とユーザー調査を実施しました。
私たちの分析によると、ChatGPT の回答の 52% が不正確で、77% が冗長であることがわかりました。
それにもかかわらず、ChatGPT の回答は、その包括性と明確に表現された言語スタイルにより、依然として 39.34% の確率で好まれています。
私たちの結果は、ChatGPT のエラーを綿密に検査して修正する必要があることを示唆しており、同時に、一見正しい ChatGPT の回答に関連するリスクについてのユーザーの意識を高めています。
要約(オリジナル)
Q&A platforms have been an integral part of the web-help-seeking behavior of programmers over the past decade. However, with the recent introduction of ChatGPT, the paradigm of web-help-seeking behavior is experiencing a shift. Despite the popularity of ChatGPT, no comprehensive study has been conducted to evaluate the characteristics or usability of ChatGPT’s answers to software engineering questions. To bridge the gap, we conducted the first in-depth analysis of ChatGPT’s answers to 517 Stack Overflow (SO) questions and examined the correctness, consistency, comprehensiveness, and conciseness of ChatGPT’s answers. Furthermore, we conducted a large-scale linguistic analysis, and a user study to understand the characteristics of ChatGPT answers from linguistic and human aspects. Our analysis shows that 52% of ChatGPT answers are incorrect and 77% are verbose. Nonetheless, ChatGPT answers are still preferred 39.34% of the time due to their comprehensiveness and well-articulated language style. Our result implies the necessity of close examination and rectification of errors in ChatGPT, at the same time creating awareness among its users of the risks associated with seemingly correct ChatGPT answers.
arxiv情報
| 著者 | Samia Kabir,David N. Udo-Imeh,Bonan Kou,Tianyi Zhang |
| 発行日 | 2023-08-07 02:17:18+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google