Enhancing Robustness of AI Offensive Code Generators via Data Augmentation

要約

この研究では、コード記述に摂動を追加して、新しい単語の使用または単語の一部の欠落により元の入力とは異なる、善意の開発者からの自然言語 (NL) で新しい入力を作成する方法を紹介します。

目標は、セキュリティ指向のコードのコンテキストにおいて、摂動が AI コード ジェネレーターのパフォーマンスにどのように、どの程度影響を与えるかを分析することです。
まず、摂動された記述が元の摂動されていない記述の意味論を保持していることを示します。
次に、この方法を使用して、新たに摂動された入力に対する 3 つの最先端のコード ジェネレーターの堅牢性を評価し、これらの AI ベースのソリューションのパフォーマンスが NL 記述の摂動によって大きく影響されることを示します。
堅牢性を強化するために、この方法を使用してデータ拡張を実行します。つまり、トレーニング データ内の NL 記述の変動性と多様性を高め、摂動されたコード記述と摂動されていないコード記述の両方に対してその有効性を証明します。

要約(オリジナル)

In this work, we present a method to add perturbations to the code descriptions to create new inputs in natural language (NL) from well-intentioned developers that diverge from the original ones due to the use of new words or because they miss part of them. The goal is to analyze how and to what extent perturbations affect the performance of AI code generators in the context of security-oriented code. First, we show that perturbed descriptions preserve the semantics of the original, non-perturbed ones. Then, we use the method to assess the robustness of three state-of-the-art code generators against the newly perturbed inputs, showing that the performance of these AI-based solutions is highly affected by perturbations in the NL descriptions. To enhance their robustness, we use the method to perform data augmentation, i.e., to increase the variability and diversity of the NL descriptions in the training data, proving its effectiveness against both perturbed and non-perturbed code descriptions.

arxiv情報

著者 Cristina Improta,Pietro Liguori,Roberto Natella,Bojan Cukic,Domenico Cotroneo
発行日 2023-10-01 13:01:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク