Between Lines of Code: Unraveling the Distinct Patterns of Machine and Human Programmers


大きな進歩を遂げる一方、機械が作成したソース コードと人間が作成したソース コードの区別があいまいになり、ソフトウェア アーティファクトの完全性と信頼性の問題が生じます。
DetectGPT などの以前の方法は、機械生成されたテキストを識別するのに効果的であることが証明されていますが、機械生成されたコードの固有のパターンを識別して利用することはできません。
私たちの調査結果に基づいて、機械生成コードを検出するための新しい方法である DetectCodeGPT を提案します。これは、コードの明確な様式化されたパターンをキャプチャすることで DetectGPT を改善します。
摂動を外部 LLM に依存する従来の手法とは異なり、DetectCodeGPT はスペースと改行を戦略的に挿入することでコード コーパスを摂動し、有効性と効率の両方を保証します。


Large language models have catalyzed an unprecedented wave in code generation. While achieving significant advances, they blur the distinctions between machine- and human-authored source code, causing integrity and authenticity issues of software artifacts. Previous methods such as DetectGPT have proven effective in discerning machine-generated texts, but they do not identify and harness the unique patterns of machine-generated code. Thus, its applicability falters when applied to code. In this paper, we carefully study the specific patterns that characterize machine- and human-authored code. Through a rigorous analysis of code attributes such as lexical diversity, conciseness, and naturalness, we expose unique patterns inherent to each source. We particularly notice that the syntactic segmentation of code is a critical factor in identifying its provenance. Based on our findings, we propose DetectCodeGPT, a novel method for detecting machine-generated code, which improves DetectGPT by capturing the distinct stylized patterns of code. Diverging from conventional techniques that depend on external LLMs for perturbations, DetectCodeGPT perturbs the code corpus by strategically inserting spaces and newlines, ensuring both efficacy and efficiency. Experiment results show that our approach significantly outperforms state-of-the-art techniques in detecting machine-generated code.


著者 Yuling Shi,Hongyu Zhang,Chengcheng Wan,Xiaodong Gu
発行日 2024-07-30 09:26:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CL, cs.SE パーマリンク