Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings

要約

JetBrains では、コミット メッセージ生成 (CMG) システムが IDE およびその他の製品に統合されている場合、生成されたメッセージのユーザーの受け入れに基づいてオンライン評価を実行します。
ただし、CMG システムに変更を加えるたびにオンライン実験を実行するのは、各反復がユーザーに影響を与え、十分な統計を収集するのに時間がかかるため、面倒です。
一方、研究文献で一般的なアプローチであるオフライン評価では、迅速な実験が容易になりますが、実際のユーザーの好みを表すことが保証されていない自動メトリクスが使用されます。
この研究では、JetBrains でこの問題に対処するために採用した新しい方法について説明します。オンライン メトリクス (生成されたメッセージを VCS にコミットする前にユーザーが導入する編集の数) を活用して、オフライン実験用のメトリクスを選択します。
この新しいタイプの評価をサポートするために、CMG システムを使用して実際のワークフローを模倣した新しいマークアップ収集ツールを開発し、GPT-4 によって生成されたコミット メッセージと人間の専門家によって編集された対応するメッセージで構成される 57 ペアのデータセットを収集し、設計と
このようなデータセットを合成的に拡張する方法を検証します。
次に、656 ペアの最終データセットを使用して、広く使用されている類似性指標が、実際のユーザーのエクスペリエンスを反映するオンライン指標とどのように相関するかを研究します。
私たちの結果は、編集距離がオンライン指標と最も高い相関を示すのに対し、BLEU や METEOR などの一般的に使用される類似性指標は相関が低いことを示しています。
これは、CMG の類似性指標に関するこれまでの研究と矛盾しており、現実世界の設定における CMG システムとのユーザーのインタラクションが、制御された環境内での人間のラベラーによる反応とは大きく異なることを示唆しています。
この分野での将来の研究をサポートするために、すべてのコードとデータセットをリリースします: https://jb.gg/cmg-evaluation。

要約(オリジナル)

When a Commit Message Generation (CMG) system is integrated into the IDEs and other products at JetBrains, we perform online evaluation based on user acceptance of the generated messages. However, performing online experiments with every change to a CMG system is troublesome, as each iteration affects users and requires time to collect enough statistics. On the other hand, offline evaluation, a prevalent approach in the research literature, facilitates fast experiments but employs automatic metrics that are not guaranteed to represent the preferences of real users. In this work, we describe a novel way we employed to deal with this problem at JetBrains, by leveraging an online metric – the number of edits users introduce before committing the generated messages to the VCS – to select metrics for offline experiments. To support this new type of evaluation, we develop a novel markup collection tool mimicking the real workflow with a CMG system, collect a dataset with 57 pairs consisting of commit messages generated by GPT-4 and their counterparts edited by human experts, and design and verify a way to synthetically extend such a dataset. Then, we use the final dataset of 656 pairs to study how the widely used similarity metrics correlate with the online metric reflecting the real users’ experience. Our results indicate that edit distance exhibits the highest correlation with the online metric, whereas commonly used similarity metrics such as BLEU and METEOR demonstrate low correlation. This contradicts the previous studies on similarity metrics for CMG, suggesting that user interactions with a CMG system in real-world settings differ significantly from the responses by human labelers within controlled environments. We release all the code and the dataset to support future research in the field: https://jb.gg/cmg-evaluation.

arxiv情報

著者 Petr Tsvetkov,Aleksandra Eliseeva,Danny Dig,Alexander Bezzubov,Yaroslav Golubev,Timofey Bryksin,Yaroslav Zharov
発行日 2025-01-08 15:35:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.LG, cs.SE パーマリンク