Enhancing Trust in LLM-Generated Code Summaries with Calibrated Confidence Scores

要約

適切な要約は、プログラムを理解する際に非常に役立ちます。
簡潔で流暢で適切な要約は役に立ちますが、作成するには多大な人間の労力が必要です。
多くの場合、ソフトウェア プロジェクトでは適切なサマリーが入手できないため、メンテナンスがより困難になります。
大規模言語モデル (LLM) を使用して、コードの要約を生成する自動化された AI ベースの手法については、かなりの量の研究が行われてきました。
また、このような要約手法のパフォーマンスを測定する方法についてもかなりの研究が行われており、AI が生成した要約が人間が作成した要約にどの程度似ているかに特に注意が払われています。
BERTScore や BLEU などの尺度が提案され、人間を対象とした研究で評価されています。
ただし、LLM はしばしば誤りを犯し、人間の言うこととはまったく異なるものを生成します。
LLM が生成したコードの要約が与えられた場合、それが人間が生成した要約と十分に類似しているかどうかを判断する方法はありますか?
この論文では、この問題をキャリブレーション問題として研究します。LLM からの要約が与えられた場合、その要約がこの状況で人間が生成するものと十分に類似しているかどうかを示す信頼度尺度を計算できますか。
?
私たちは、いくつかの LLM を使用し、いくつかの言語で、いくつかの異なる設定でこの質問を調べます。
私たちは、人間の概要との類似性の可能性について十分に調整された予測を提供するアプローチを提案します。

要約(オリジナル)

A good summary can often be very useful during program comprehension. While a brief, fluent, and relevant summary can be helpful, it does require significant human effort to produce. Often, good summaries are unavailable in software projects, thus making maintenance more difficult. There has been a considerable body of research into automated AI-based methods, using Large Language models (LLMs), to generate summaries of code; there also has been quite a bit work on ways to measure the performance of such summarization methods, with special attention paid to how closely these AI-generated summaries resemble a summary a human might have produced. Measures such as BERTScore and BLEU have been suggested and evaluated with human-subject studies. However, LLMs often err and generate something quite unlike what a human might say. Given an LLM-produced code summary, is there a way to gauge whether it’s likely to be sufficiently similar to a human produced summary, or not? In this paper, we study this question, as a calibration problem: given a summary from an LLM, can we compute a confidence measure, which is a good indication of whether the summary is sufficiently similar to what a human would have produced in this situation? We examine this question using several LLMs, for several languages, and in several different settings. We suggest an approach which provides well-calibrated predictions of likelihood of similarity to human summaries.

arxiv情報

著者 Yuvraj Virk,Premkumar Devanbu,Toufique Ahmed
発行日 2024-04-30 07:38:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE パーマリンク