Leveraging Large Language Models in Code Question Answering: Baselines and Issues

要約

ソース コードに対する質問応答により、ソフトウェア エンジニアやプロジェクト マネージャーに、ソフトウェア製品の実装された機能に関する役立つ情報が提供されます。
このペーパーでは、Python のソース コード上で質問応答に大規模な言語モデルを使用することに特化した研究について説明します。
ソース コードの質問応答システムを実装するために提案された方法には、Python コードの質問と回答の統一データセットに基づいて大規模な言語モデルを微調整することが含まれます。
最高品質の回答を得るために、さまざまな方法で前処理されたデータセットでトレーニングされたさまざまなモデルをテストしました。文法修正なしのデータセット、文法修正ありのデータセット、生成された要約で強化されたデータセットです。
模範解答の誤り​​も手動で分析されました。
BLEU-4、BERTScore F1、BLEURT、完全一致メトリクス値と、手動エラー分析の結論を報告します。
得られた実験結果は、公開されている本物の質問応答データセットの品質の低さなど、研究分野の現在の問題を浮き彫りにしています。
さらに、この調査結果には、トレーニング データの文法修正がテスト メトリック値に及ぼすプラスの効果が含まれています。
対処された発見と問題は、ソース コードの質問応答ソリューションの品質を向上させようとする他の研究者にとって重要になる可能性があります。
トレーニングおよび評価コードは、https://github.com/IU-AES-AI4Code/CodeQuestionAnswering で公開されています。

要約(オリジナル)

Question answering over source code provides software engineers and project managers with helpful information about the implemented features of a software product. This paper presents a work devoted to using large language models for question answering over source code in Python. The proposed method for implementing a source code question answering system involves fine-tuning a large language model on a unified dataset of questions and answers for Python code. To achieve the highest quality answers, we tested various models trained on datasets preprocessed in different ways: a dataset without grammar correction, a dataset with grammar correction, and a dataset augmented with the generated summaries. The model answers were also analyzed for errors manually. We report BLEU-4, BERTScore F1, BLEURT, and Exact Match metric values, along with the conclusions from the manual error analysis. The obtained experimental results highlight the current problems of the research area, such as poor quality of the public genuine question-answering datasets. In addition, the findings include the positive effect of the grammar correction of the training data on the testing metric values. The addressed findings and issues could be important for other researchers who attempt to improve the quality of source code question answering solutions. The training and evaluation code is publicly available at https://github.com/IU-AES-AI4Code/CodeQuestionAnswering.

arxiv情報

著者 Georgy Andryushchenko,Vladimir Ivanov,Vladimir Makharev,Elizaveta Tukhtina,Aidar Valeev
発行日 2024-11-05 11:25:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク