Enhancing AI-based Generation of Software Exploits with Contextual Information


この実践的な体験レポートでは、自然言語 (NL) 記述から攻撃的なセキュリティ コードを生成するニューラル機械翻訳 (NMT) モデルの機能を調査し、文脈理解の重要性とモデルのパフォーマンスへの影響を強調しています。
この調査結果から、コンテキスト データの導入によりパフォーマンスが大幅に向上することが明らかになりました。
さらに、このモデルは、不要なコンテキストをフィルタリングして除去し、攻撃的なセキュリティ コードの生成において高レベルの精度を維持する能力を実証しています。
この研究は、AI 主導のコード生成、特に攻撃的なコードの生成など、高度な技術的精度が必要なアプリケーションにおけるコンテキストの使用の最適化に関する将来の研究への道を開きます。


This practical experience report explores Neural Machine Translation (NMT) models’ capability to generate offensive security code from natural language (NL) descriptions, highlighting the significance of contextual understanding and its impact on model performance. Our study employs a dataset comprising real shellcodes to evaluate the models across various scenarios, including missing information, necessary context, and unnecessary context. The experiments are designed to assess the models’ resilience against incomplete descriptions, their proficiency in leveraging context for enhanced accuracy, and their ability to discern irrelevant information. The findings reveal that the introduction of contextual data significantly improves performance. However, the benefits of additional context diminish beyond a certain point, indicating an optimal level of contextual information for model training. Moreover, the models demonstrate an ability to filter out unnecessary context, maintaining high levels of accuracy in the generation of offensive security code. This study paves the way for future research on optimizing context use in AI-driven code generation, particularly for applications requiring a high degree of technical precision such as the generation of offensive code.


著者 Pietro Liguori,Cristina Improta,Roberto Natella,Bojan Cukic,Domenico Cotroneo
発行日 2024-08-05 11:52:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE パーマリンク