Large Multimodal Agents for Accurate Phishing Detection with Enhanced Token Optimization and Cost Reduction


巧妙なフィッシング攻撃の増加に伴い、効果的かつ経済的な検知ソリューションの必要性が高まっている。本稿では、大規模なマルチモーダルエージェント、具体的にはGemini 1.5 FlashとGPT-4o miniの利用を検討し、APIを介してURLとウェブページのスクリーンショットの両方を分析することで、AIシステムのトレーニングと保守の複雑さを回避する。我々の発見は、これら2つのデータタイプを統合することで、どちらか一方のみを使用するよりも検出性能が大幅に向上することを示している。しかし、APIの利用には、入出力トークンの数に依存するクエリごとのコストが発生する。この問題に対処するために、我々は2層のエージェント的アプローチを提案する:最初に、1つのエージェントがURLを評価し、結論が出ない場合、2番目のエージェントがURLとスクリーンショットの両方を評価する。この方法は、ロバストな検出性能を維持するだけでなく、不必要な複数入力クエリを最小化することで、APIコストを大幅に削減する。コスト分析によると、エージェント方式では、GPT-4o miniは、マルチモーダル方式と比較して、100ドルあたり約4.2倍のウェブサイトを処理でき(107,440対25,626)、Gemini 1.5 Flashは、約2.6倍のウェブサイトを処理できる(2,232,142対862,068)。これらの調査結果は、マルチモーダルアプローチよりもエージェントアプローチの方が経済的に大きなメリットがあることを強調するものであり、フィッシング検知に高度なAIを活用しつつ、経費の抑制を目指す組織にとって実行可能なソリューションを提供するものである。


With the rise of sophisticated phishing attacks, there is a growing need for effective and economical detection solutions. This paper explores the use of large multimodal agents, specifically Gemini 1.5 Flash and GPT-4o mini, to analyze both URLs and webpage screenshots via APIs, thus avoiding the complexities of training and maintaining AI systems. Our findings indicate that integrating these two data types substantially enhances detection performance over using either type alone. However, API usage incurs costs per query that depend on the number of input and output tokens. To address this, we propose a two-tiered agentic approach: initially, one agent assesses the URL, and if inconclusive, a second agent evaluates both the URL and the screenshot. This method not only maintains robust detection performance but also significantly reduces API costs by minimizing unnecessary multi-input queries. Cost analysis shows that with the agentic approach, GPT-4o mini can process about 4.2 times as many websites per $100 compared to the multimodal approach (107,440 vs. 25,626), and Gemini 1.5 Flash can process about 2.6 times more websites (2,232,142 vs. 862,068). These findings underscore the significant economic benefits of the agentic approach over the multimodal method, providing a viable solution for organizations aiming to leverage advanced AI for phishing detection while controlling expenses.


著者 Fouad Trad,Ali Chehab
発行日 2024-12-03 09:13:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, DeepL

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク