Evaluation of ChatGPT Usability as A Code Generation Tool

要約

機械学習 (ML) テクノロジーの急速な進歩に伴い、大規模言語モデル (LLM) は、自然言語仕様からプログラム コードを生成するインテリジェント ツールとしてますます検討されています。
しかし、LLM の既存の評価は、人間と比較した LLM の能力に焦点を当ててきました。
ソフトウェア制作で LLM を使用するかどうかを決定する際には、その使いやすさを評価することが望ましいです。
本稿ではユーザ中心の手法を提案する。
ベンチマークのテスト ケースにメタデータを含めてその使用法を説明し、LLM の使用法を模倣する複数試行プロセスでテストを実施し、ユーザビリティを反映する一連の品質属性に基づいて LLM によって生成されたソリューションを測定し、それに基づいてパフォーマンスを評価します。
LLM をツールとして使用する際のユーザー エクスペリエンス。
この論文では、R プログラミング言語のコード生成ツールとしての ChatGPT の使いやすさの評価におけるこの方法の適用について報告しています。
私たちの実験では、ChatGPT は難しいプログラミング タスクでは失敗する可能性があるものの、R プログラム コードの生成には非常に役立つことが実証されました。
ユーザー エクスペリエンスは良好で、全体の平均試行回数は 1.61 回、平均完了時間は 47.02 秒でした。
また、私たちの実験では、ユーザビリティの最も弱い側面は簡潔さであることもわかり、そのスコアは 5 点満点中 3.80 でした。また、私たちの実験では、人間の開発者が ChatGPT を使用してコードを生成するスキルを向上させるために経験から学ぶのは難しいことも示しています。

要約(オリジナル)

With the rapid advance of machine learning (ML) technology, large language models (LLMs) are increasingly explored as an intelligent tool to generate program code from natural language specifications. However, existing evaluations of LLMs have focused on their capabilities in comparison with humans. It is desirable to evaluate their usability when deciding on whether to use a LLM in software production. This paper proposes a user centric method. It includes metadata in the test cases of a benchmark to describe their usages, conducts testing in a multi-attempt process that mimic the uses of LLMs, measures LLM generated solutions on a set of quality attributes that reflect usability, and evaluates the performance based on user experiences in the uses of LLMs as a tool. The paper reports an application of the method in the evaluation of ChatGPT usability as a code generation tool for the R programming language. Our experiments demonstrated that ChatGPT is highly useful for generating R program code although it may fail on hard programming tasks. The user experiences are good with overall average number of attempts being 1.61 and the average time of completion being 47.02 seconds. Our experiments also found that the weakest aspect of usability is conciseness, which has a score of 3.80 out of 5. Our experiment also shows that it is hard for human developers to learn from experiences to improve the skill of using ChatGPT to generate code.

arxiv情報

著者 Tanha Miah,Hong Zhu
発行日 2024-04-09 12:37:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE パーマリンク