Backdooring Neural Code Search

要約

オンライン リポジトリから既製のコード スニペットを再利用することは一般的な方法であり、ソフトウェア開発者の生産性が大幅に向上します。
目的のコード スニペットを見つけるために、開発者は自然言語クエリによるコード検索エンジンを利用します。
したがって、ニューラル コード検索モデルは、そのような多くのエンジンの背後にあります。
これらのモデルは深層学習に基づいており、その優れたパフォーマンスにより大きな注目を集めています。
ただし、これらのモデルのセキュリティ面はほとんど研究されていません。
特に、敵対者はニューラル コード検索モデルにバックドアを挿入し、バグのあるコードや、セキュリティ/プライバシーの問題を伴う脆弱なコードを返す可能性があります。
これは、下流のソフトウェア (株式取引システムや自動運転など) に影響を与え、経済的損失や生命を脅かす事故を引き起こす可能性があります。
この論文では、このような攻撃が実行可能であり、非常にステルスである可能性があることを実証します。
1 つの変数/関数名を変更するだけで、攻撃者はバグのあるコードや脆弱なコードを上位 11% にランクさせることができます。
私たちの攻撃 BADCODE は、特別なトリガーの生成と挿入手順を特徴としており、攻撃をより効果的かつステルスにしています。
評価は 2 つのニューラル コード検索モデルで行われ、その結果、攻撃がベースラインを 60% 上回ったことが示されました。
当社のユーザー調査では、F1 スコアに基づいて、当社の攻撃がベースラインよりも 2 倍ステルス性が高いことが実証されました。

要約(オリジナル)

Reusing off-the-shelf code snippets from online repositories is a common practice, which significantly enhances the productivity of software developers. To find desired code snippets, developers resort to code search engines through natural language queries. Neural code search models are hence behind many such engines. These models are based on deep learning and gain substantial attention due to their impressive performance. However, the security aspect of these models is rarely studied. Particularly, an adversary can inject a backdoor in neural code search models, which return buggy or even vulnerable code with security/privacy issues. This may impact the downstream software (e.g., stock trading systems and autonomous driving) and cause financial loss and/or life-threatening incidents. In this paper, we demonstrate such attacks are feasible and can be quite stealthy. By simply modifying one variable/function name, the attacker can make buggy/vulnerable code rank in the top 11%. Our attack BADCODE features a special trigger generation and injection procedure, making the attack more effective and stealthy. The evaluation is conducted on two neural code search models and the results show our attack outperforms baselines by 60%. Our user study demonstrates that our attack is more stealthy than the baseline by two times based on the F1 score.

arxiv情報

著者 Weisong Sun,Yuchen Chen,Guanhong Tao,Chunrong Fang,Xiangyu Zhang,Quanjun Zhang,Bin Luo
発行日 2023-06-12 08:05:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T01, cs.AI, cs.CL, cs.SE, I.2.2; D.2.13 パーマリンク