Aligning Offline Metrics and Human Judgments of Value for Code Generation Models

要約

大規模な言語モデルは、プログラマーのコード生成を支援する大きな可能性を示しています。
このような人間と AI のペア プログラミング シナリオでは、生成されたコードは機能の正確さ (つまり、世代が利用可能な単体テストに合格するかどうか) の観点から評価されることがほとんどですが、正確さは生産性を完全には捉えていない (例、過小評価している可能性がある) ことを経験的に示しています。
これらのモデルが提供する可能性のあるゲイン。
N = 49 人の経験豊富なプログラマーによるユーザー調査を通じて、正確性は高価値の世代を捕捉する一方で、プログラマーは、コーディング タスクを完了するために必要な全体的な労力が軽減される場合には、単体テストに失敗したコードでも依然として価値があると評価することを示しました。
最後に、機能の正確性と構文の類似性を組み合わせたハイブリッド メトリックを提案し、値との 14% 強い相関関係を達成するため、モデルを評価および比較する際に現実世界の利益をより適切に表現できることを示します。

要約(オリジナル)

Large language models have demonstrated great potential to assist programmers in generating code. For such human-AI pair programming scenarios, we empirically demonstrate that while generated code is most often evaluated in terms of their functional correctness (i.e., whether generations pass available unit tests), correctness does not fully capture (e.g., may underestimate) the productivity gains these models may provide. Through a user study with N = 49 experienced programmers, we show that while correctness captures high-value generations, programmers still rate code that fails unit tests as valuable if it reduces the overall effort needed to complete a coding task. Finally, we propose a hybrid metric that combines functional correctness and syntactic similarity and show that it achieves a 14% stronger correlation with value and can therefore better represent real-world gains when evaluating and comparing models.

arxiv情報

著者 Victor Dibia,Adam Fourney,Gagan Bansal,Forough Poursabzi-Sangdeh,Han Liu,Saleema Amershi
発行日 2023-06-13 17:45:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.PL, cs.SE パーマリンク