Revisiting Code Similarity Evaluation with Abstract Syntax Tree Edit Distance

要約

本稿では、最近のコード類似性評価メトリクスを再検討し、特に、多様なプログラミング言語における抽象構文木(AST)編集距離の適用に焦点を当てる。特に、これらのメトリクスの有用性を探り、従来のシーケンス類似性メトリクスと比較する。我々の実験では、AST編集距離が複雑なコード構造を捉える上で有効であることを示し、確立されたメトリクスと高い相関があることを明らかにした。さらに、BLEUスコア、実行マッチ、Jaccard Similarityと比較して、AST編集距離とプロンプトベースのGPT類似度スコアの長所と短所を探る。さらに、編集距離の木類似度(TSED)の拡張版として、テストしたすべての言語にわたって有効性を示す適応可能なメトリックを提案、最適化し、公開する。

要約(オリジナル)

This paper revisits recent code similarity evaluation metrics, particularly focusing on the application of Abstract Syntax Tree (AST) editing distance in diverse programming languages. In particular, we explore the usefulness of these metrics and compare them to traditional sequence similarity metrics. Our experiments showcase the effectiveness of AST editing distance in capturing intricate code structures, revealing a high correlation with established metrics. Furthermore, we explore the strengths and weaknesses of AST editing distance and prompt-based GPT similarity scores in comparison to BLEU score, execution match, and Jaccard Similarity. We propose, optimize, and publish an adaptable metric that demonstrates effectiveness across all tested languages, representing an enhanced version of Tree Similarity of Edit Distance (TSED).

arxiv情報

著者 Yewei Song,Cedric Lothritz,Daniel Tang,Tegawendé F. Bissyandé,Jacques Klein
発行日 2024-06-03 11:56:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.PL, cs.SE パーマリンク