Training Large Language Models for Advanced Typosquatting Detection

要約

タイプスカーティングは、ユーザーを欺き、マルウェアを配布し、フィッシング攻撃を実施するためにURLを入力する際に​​ヒューマンエラーを活用する長年のサイバー脅威です。
ドメイン名と新しいトップレベルのドメイン(TLD)の急増により、タイプスケート技術はより洗練され、個人、企業、および国家サイバーセキュリティインフラストラクチャに大きなリスクをもたらしました。
従来の検出方法は、主によく知られているなりすましパターンに焦点を当てており、より複雑な攻撃を特定する範囲を残しています。
この研究では、タイプスキャット検出を強化するために、大規模な言語モデル(LLMS)を活用する新しいアプローチを紹介します。
ドメイン固有のデータではなく、キャラクターレベルの変換とパターンベースのヒューリスティックに関するLLMをトレーニングすることにより、より適応性のある回復力のある検出メカニズムが開発されます。
実験結果は、PHI-4 14Bモデルが、数千のトレーニングサンプルで98%の精度を適切に調整した場合、他のテストモデルよりも優れていることを示しています。
この研究は、サイバーセキュリティアプリケーション、特にドメインベースの欺ception戦術の緩和におけるLLMの可能性を強調し、脅威検出のための機械学習戦略の最適化に関する洞察を提供します。

要約(オリジナル)

Typosquatting is a long-standing cyber threat that exploits human error in typing URLs to deceive users, distribute malware, and conduct phishing attacks. With the proliferation of domain names and new Top-Level Domains (TLDs), typosquatting techniques have grown more sophisticated, posing significant risks to individuals, businesses, and national cybersecurity infrastructure. Traditional detection methods primarily focus on well-known impersonation patterns, leaving gaps in identifying more complex attacks. This study introduces a novel approach leveraging large language models (LLMs) to enhance typosquatting detection. By training an LLM on character-level transformations and pattern-based heuristics rather than domain-specific data, a more adaptable and resilient detection mechanism develops. Experimental results indicate that the Phi-4 14B model outperformed other tested models when properly fine tuned achieving a 98% accuracy rate with only a few thousand training samples. This research highlights the potential of LLMs in cybersecurity applications, specifically in mitigating domain-based deception tactics, and provides insights into optimizing machine learning strategies for threat detection.

arxiv情報

著者 Jackson Welch
発行日 2025-03-28 13:16:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.NI パーマリンク