RNNS: Representation Nearest Neighbor Search Black-Box Attack on Code Models

要約

タイトル:コードモデルに対するRNNS:表現最近傍探索ブラックボックス攻撃

要約:
– Pre-trained code modelsは主にin-distribution test dataで評価される。
– モデルのロバスト性、すなわちハードな未知のデータを扱う能力は、まだ評価が十分ではない。
– この論文では、モデルの振る舞いに基づいて誘導された検索ベースのブラックボックス攻撃、Representation Nearest Neighbor Search(RNNS)を提案することで、Pre-trainedプログラミング言語モデルのロバスト性を評価する。
– 他のブラックボックス攻撃手法とは異なり、RNNSは変数名の空間での検索を誘導するためにモデル変更信号を使用する。
– RNNSには2つの主要なステップがあり、1つ目はモデルの不確実性に基づいて攻撃位置の変数を指定し、2つ目はモデルの振る舞いの観察に基づいて変数名の置換に使用する攻撃用トークンを検索することである。
– RNNSは、6つのコードタスク(クローン検出など)、3つのプログラミング言語(Java、Python、C)、3つのPre-trainedコードモデル(CodeBERT、GraphCodeBERT、CodeT5)で評価される。
– 結果は、RNNSが攻撃成功率(ASR)とクエリ時間(QT)の観点から、最先端のブラックボックス攻撃手法(MHMとALERT)を上回ったことを示している。
– RNNSで生成された攻撃的な例の歪みは、置換された変数の数と変数長の変化に関してベースラインより小さい。
– 実験は、RNNSが防御モデルを攻撃するのに効率的で、adversarial trainingに役立つことを示している。

要約(オリジナル)

Pre-trained code models are mainly evaluated using the in-distribution test data. The robustness of models, i.e., the ability to handle hard unseen data, still lacks evaluation. In this paper, we propose a novel search-based black-box adversarial attack guided by model behaviours for pre-trained programming language models, named Representation Nearest Neighbor Search(RNNS), to evaluate the robustness of Pre-trained PL models. Unlike other black-box adversarial attacks, RNNS uses the model-change signal to guide the search in the space of the variable names collected from real-world projects. Specifically, RNNS contains two main steps, 1) indicate which variable (attack position location) we should attack based on model uncertainty, and 2) search which adversarial tokens we should use for variable renaming according to the model behaviour observations. We evaluate RNNS on 6 code tasks (e.g., clone detection), 3 programming languages (Java, Python, and C), and 3 pre-trained code models: CodeBERT, GraphCodeBERT, and CodeT5. The results demonstrate that RNNS outperforms the state-of-the-art black-box attacking methods (MHM and ALERT) in terms of attack success rate (ASR) and query times (QT). The perturbation of generated adversarial examples from RNNS is smaller than the baselines with respect to the number of replaced variables and the variable length change. Our experiments also show that RNNS is efficient in attacking the defended models and is useful for adversarial training.

arxiv情報

著者 Jie Zhang,Wei Ma,Qiang Hu,Xiaofei Xie,Yves Le Traon,Yang Liu
発行日 2023-05-10 04:58:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CR, cs.SE パーマリンク