要約
人工知能(AI)、特に大規模言語モデル(LLM)の領域における最近の進歩は、強力で汎用性の高いデュアルユースシステムを生み出しています。実際、認知は様々なタスクに向けることができ、その中には被害をもたらすものもある。本研究では、LLMをサイバー犯罪の一形態であるスピアフィッシング(標的を操作して機密情報を漏らさせる)に利用する方法を検討する。まず、スピアフィッシングを成功させるための偵察とメッセージ生成の段階を支援するLLMの能力を調査し、高度なLLMがこれらの段階におけるサイバー犯罪者の効率を向上させることができることを発見した。LLMがスピアフィッシングキャンペーンの規模拡大にどのように利用できるかを探るため、OpenAIのGPT-3.5とGPT-4モデルを用いて、600人以上の英国国会議員を対象としたユニークなスピアフィッシングメッセージを作成しました。その結果、これらのメッセージは現実的であるだけでなく、費用対効果も高く、各メールの作成コストはわずか1セントであることがわかりました。次に、基本的なプロンプトエンジニアリングが、人間のフィードバックからの強化学習による微調整プロセスによってLLMに設置されたセーフガードを回避できることを示し、悪用を防止することを目的としたより強固なガバナンス介入の必要性を強調するものであった。これらの進化するリスクに対処するために、私は2つの潜在的な解決策を提案する:アプリケーションプログラミングインタフェースなどの構造化されたアクセススキームと、LLMベースの防御システムである。
要約(オリジナル)
Recent progress in artificial intelligence (AI), particularly in the domain of large language models (LLMs), has resulted in powerful and versatile dual-use systems. Indeed, cognition can be put towards a wide variety of tasks, some of which can result in harm. This study investigates how LLMs can be used for spear phishing, a form of cybercrime that involves manipulating targets into divulging sensitive information. I first explore LLMs’ ability to assist with the reconnaissance and message generation stages of a successful spear phishing attack, where I find that advanced LLMs are capable of improving cybercriminals’ efficiency during these stages. To explore how LLMs can be used to scale spear phishing campaigns, I then create unique spear phishing messages for over 600 British Members of Parliament using OpenAI’s GPT-3.5 and GPT-4 models. My findings reveal that these messages are not only realistic but also cost-effective, with each email costing only a fraction of a cent to generate. Next, I demonstrate how basic prompt engineering can circumvent safeguards installed in LLMs by the reinforcement learning from human feedback fine-tuning process, highlighting the need for more robust governance interventions aimed at preventing misuse. To address these evolving risks, I propose two potential solutions: structured access schemes, such as application programming interfaces, and LLM-based defensive systems.
arxiv情報
著者 | Julian Hazell |
発行日 | 2023-05-12 07:48:41+00:00 |
arxivサイト | arxiv_id(pdf) |