Exploring the Limits of Transfer Learning with Unified Model in the Cybersecurity Domain

要約

ソフトウェアシステムのサイバーセキュリティの脆弱性の増加に伴い、それらを悪用する方法も増加しています。
これらに加えて、マルウェアの脅威、不規則なネットワーク インタラクション、パブリック フォーラムでのエクスプロイトに関する議論も増加しています。
これらの脅威をより迅速に特定し、あらゆるテキストから潜在的に関連するエンティティを検出し、ソフトウェアの脆弱性を認識するには、自動化されたアプローチが必要です。
サイバーセキュリティ ドメインでの自然言語処理 (NLP) 技術の適用は、これを達成するのに役立ちます。
ただし、サイバーセキュリティ ドメインに関連するテキストの多様な性質、公開されている大規模なデータセットが利用できないこと、注釈のために対象分野の専門家を雇うための多大なコストなどの課題があります。
解決策の 1 つは、限られたデータで共同でトレーニングできるマルチタスク モデルを構築することです。
この作業では、マルウェア レポート、フィッシング サイトの URL、プログラミング コードの構造、ソーシャル メディア データ、ブログ、ニュース記事、公開フォーラムの投稿でトレーニングされた生成型マルチタスク モデル、Unified Text-to-Text Cyber​​security (UTS) を紹介します。
.
UTS が一部のサイバーセキュリティ データセットのパフォーマンスを向上させることを示しています。
また、いくつかの例を使用して、UTS が新しい目に見えないタスクとデータの性質に適応できることを示します。

要約(オリジナル)

With the increase in cybersecurity vulnerabilities of software systems, the ways to exploit them are also increasing. Besides these, malware threats, irregular network interactions, and discussions about exploits in public forums are also on the rise. To identify these threats faster, to detect potentially relevant entities from any texts, and to be aware of software vulnerabilities, automated approaches are necessary. Application of natural language processing (NLP) techniques in the Cybersecurity domain can help in achieving this. However, there are challenges such as the diverse nature of texts involved in the cybersecurity domain, the unavailability of large-scale publicly available datasets, and the significant cost of hiring subject matter experts for annotations. One of the solutions is building multi-task models that can be trained jointly with limited data. In this work, we introduce a generative multi-task model, Unified Text-to-Text Cybersecurity (UTS), trained on malware reports, phishing site URLs, programming code constructs, social media data, blogs, news articles, and public forum posts. We show UTS improves the performance of some cybersecurity datasets. We also show that with a few examples, UTS can be adapted to novel unseen tasks and the nature of data

arxiv情報

著者 Kuntal Kumar Pal,Kazuaki Kashihara,Ujjwala Anantheswaran,Kirby C. Kuznia,Siddhesh Jagtap,Chitta Baral
発行日 2023-02-20 22:21:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク