要約
大規模言語モデル (LLM) の前例のない言語理解と生成機能のおかげで、検索拡張コード生成 (RaCG) は最近、ソフトウェア開発者の間で広く利用されています。
これにより生産性は向上しましたが、依然として間違ったコードが提供されるケースが頻繁にあります。
特に、指定されたクエリや API の説明では回答できないユーザーからのクエリに対して、もっともらしいコードが生成される場合があります。
本研究では、ユーザーのクエリとRaCGで取得したAPIに基づいて有効な回答を生成できるかどうかを評価する、回答可能性を評価するタスクを提案します。
さらに、このタスクを実行するモデルのパフォーマンスを評価するために、検索拡張コード生成性評価 (RaCGEval) と呼ばれるベンチマーク データセットを構築します。
実験結果によると、このタスクは依然として非常に困難なレベルにあり、ベースライン モデルでは 46.7% という低いパフォーマンスが示されています。
さらに、この研究では、パフォーマンスを大幅に向上させる可能性がある方法について説明します。
要約(オリジナル)
Thanks to unprecedented language understanding and generation capabilities of large language model (LLM), Retrieval-augmented Code Generation (RaCG) has recently been widely utilized among software developers. While this has increased productivity, there are still frequent instances of incorrect codes being provided. In particular, there are cases where plausible yet incorrect codes are generated for queries from users that cannot be answered with the given queries and API descriptions. This study proposes a task for evaluating answerability, which assesses whether valid answers can be generated based on users’ queries and retrieved APIs in RaCG. Additionally, we build a benchmark dataset called Retrieval-augmented Code Generability Evaluation (RaCGEval) to evaluate the performance of models performing this task. Experimental results show that this task remains at a very challenging level, with baseline models exhibiting a low performance of 46.7%. Furthermore, this study discusses methods that could significantly improve performance.
arxiv情報
| 著者 | Geonmin Kim,Jaeyeon Kim,Hancheol Park,Wooksu Shin,Tae-Ho Kim |
| 発行日 | 2024-11-08 13:09:14+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google