Who Evaluates the Evaluators? On Automatic Metrics for Assessing AI-based Offensive Code Generators

要約

【タイトル】「イーサル・ハッキングとオフェンシブ セキュリティテストにおけるAIベース攻撃コードジェネレータの自動評価について」

【要約】

– 自然言語による説明から始めて、深層ニューラルネットワーク(NMT)を使用してプログラムを自動的に書き起こすAIベースのコードジェネレータが出現している。
– 特に、証明コンセプト攻撃を生成することで、倫理的なハッキングとオフェンシブセキュリティテストに使用されている。
– 残念ながら、コードジェネレータの評価はまだいくつかの問題がある。
– 現在の手法は、自動メトリックを使用して出力の類似性を評価することで、生成されたコードと正解参照のテキスト類似性を計算する。
– ただし、どのメトリックを使用するか、特定の文脈に最も適しているのは不明である。
– この研究は、オフェンシブコードジェネレータに対して多数の自動的な出力類似性メトリックを分析するものである。
– このメトリックを2つの最先端のNMTモデルに適用し、英語の欠陥組立ておよびPythonコードの説明を含む2つのデータセットで評価する。
– 自動メトリックの見積もりを人間の評価と比較し、強みと制限に関する実用的な見解を提供する。

要約(オリジナル)

AI-based code generators are an emerging solution for automatically writing programs starting from descriptions in natural language, by using deep neural networks (Neural Machine Translation, NMT). In particular, code generators have been used for ethical hacking and offensive security testing by generating proof-of-concept attacks. Unfortunately, the evaluation of code generators still faces several issues. The current practice uses output similarity metrics, i.e., automatic metrics that compute the textual similarity of generated code with ground-truth references. However, it is not clear what metric to use, and which metric is most suitable for specific contexts. This work analyzes a large set of output similarity metrics on offensive code generators. We apply the metrics on two state-of-the-art NMT models using two datasets containing offensive assembly and Python code with their descriptions in the English language. We compare the estimates from the automatic metrics with human evaluation and provide practical insights into their strengths and limitations.

arxiv情報

著者 Pietro Liguori,Cristina Improta,Roberto Natella,Bojan Cukic,Domenico Cotroneo
発行日 2023-04-13 11:25:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.SE パーマリンク