AuthAttLyzer-V2: Unveiling Code Authorship Attribution using Enhanced Ensemble Learning Models & Generating Benchmark Dataset

要約

ソース コード作成者帰属 (SCAA) は、ソフトウェアの起源と動作についての洞察を提供するため、ソフトウェアの分類にとって重要です。
コードの背後にある作成者またはグループを正確に特定することで、専門家は開発者の動機と技術をより深く理解できるようになります。
サイバーセキュリティ時代において、この属性は、悪意のあるソフトウェアのソースを追跡し、特定の脅威アクターやグループを示す可能性のあるコード内のパターンを特定し、最終的には脅威インテリジェンスと軽減戦略を強化するのに役立ちます。
このペーパーでは、語彙、意味、構文、および N グラムの機能に焦点を当てた、SCAA 用の新しいソース コード特徴抽出ツールである AuthAttLyzer-V2 について説明します。
私たちの研究では、3,000 人の著者からの 24,000 のソース コード サンプルを調べることにより、C++ での著者の特定を調査しています。
私たちの方法論は、ランダム フォレスト、グラディエント ブースティング、および XGBoost モデルを統合し、SHAP によって解釈可能性を強化しています。
この研究は、アンサンブル モデルが個々のコーディング スタイルを効果的に識別できることを実証し、コード作成者の固有の属性についての洞察を提供します。
このアプローチは、特にマルウェアの分類において、作成者の帰属における複雑なパターンを理解して解釈する上で極めて重要です。

要約(オリジナル)

Source Code Authorship Attribution (SCAA) is crucial for software classification because it provides insights into the origin and behavior of software. By accurately identifying the author or group behind a piece of code, experts can better understand the motivations and techniques of developers. In the cybersecurity era, this attribution helps trace the source of malicious software, identify patterns in the code that may indicate specific threat actors or groups, and ultimately enhance threat intelligence and mitigation strategies. This paper presents AuthAttLyzer-V2, a new source code feature extractor for SCAA, focusing on lexical, semantic, syntactic, and N-gram features. Our research explores author identification in C++ by examining 24,000 source code samples from 3,000 authors. Our methodology integrates Random Forest, Gradient Boosting, and XGBoost models, enhanced with SHAP for interpretability. The study demonstrates how ensemble models can effectively discern individual coding styles, offering insights into the unique attributes of code authorship. This approach is pivotal in understanding and interpreting complex patterns in authorship attribution, especially for malware classification.

arxiv情報

著者 Bhaskar Joshi,Sepideh HajiHossein Khani,Arash HabibiLashkari
発行日 2024-06-28 13:04:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE パーマリンク