要約
既存のハードウェア トロイの木馬 (HT) 検出方法は、いくつかの重大な制限に直面しています。ロジック テストではスケーラビリティと大規模設計のカバレッジに苦戦し、サイドチャネル解析ではゴールデン リファレンス チップが必要で、形式的検証方法では状態空間の爆発に悩まされます。
大規模言語モデル (LLM) の出現は、自然言語の理解と推論機能を活用することにより、HT 検出に有望な新しい方向性をもたらします。
このペーパーでは、SRAM、AES、UART モジュールなど、レジスタ転送レベル (RTL) デザインに挿入されたさまざまな HT を検出する汎用 LLM の可能性を初めて調査します。
この目標のために、事前の微調整を行わずに HT の検出において最先端の LLM (GPT-4o、Gemini 1.5 pro、および Llama 3.1) を体系的に評価する新しいツールを提案します。
潜在的なトレーニング データのバイアスに対処するために、このツールは摂動技術 (変数名の難読化や設計の再構築など) を実装し、使用される LLM のケースをより洗練させます。
当社の実験評価では、ベースライン シナリオ (100%/100% の精度/リコール) で GPT-4o および Gemini 1.5 pro による完璧な検出率が実証されており、両モデルはペイロード ライン カバレッジ (PLC: 0.82 ~ 0.98) よりも優れたトリガー ライン カバレッジ (TLC: 0.82 ~ 0.98) を達成しています。
:0.32〜0.46)。
コードの混乱下では、Gemini 1.5 pro は完璧な検出パフォーマンス (100%/100%) を維持しますが、GPT-4o (100%/85.7%) および Llama 3.1 (66.7%/85.7%) は検出率の若干の低下を示し、すべてのモデルで
トリガーとペイロードの両方を位置特定する際の精度が低下します。
このペーパーでは、ハードウェア セキュリティ アプリケーションに対する LLM アプローチの可能性を検証し、将来の改善の余地がある領域に焦点を当てます。
要約(オリジナル)
Existing Hardware Trojans (HT) detection methods face several critical limitations: logic testing struggles with scalability and coverage for large designs, side-channel analysis requires golden reference chips, and formal verification methods suffer from state-space explosion. The emergence of Large Language Models (LLMs) offers a promising new direction for HT detection by leveraging their natural language understanding and reasoning capabilities. For the first time, this paper explores the potential of general-purpose LLMs in detecting various HTs inserted in Register Transfer Level (RTL) designs, including SRAM, AES, and UART modules. We propose a novel tool for this goal that systematically assesses state-of-the-art LLMs (GPT-4o, Gemini 1.5 pro, and Llama 3.1) in detecting HTs without prior fine-tuning. To address potential training data bias, the tool implements perturbation techniques, i.e., variable name obfuscation, and design restructuring, that make the cases more sophisticated for the used LLMs. Our experimental evaluation demonstrates perfect detection rates by GPT-4o and Gemini 1.5 pro in baseline scenarios (100%/100% precision/recall), with both models achieving better trigger line coverage (TLC: 0.82-0.98) than payload line coverage (PLC: 0.32-0.46). Under code perturbation, while Gemini 1.5 pro maintains perfect detection performance (100%/100%), GPT-4o (100%/85.7%) and Llama 3.1 (66.7%/85.7%) show some degradation in detection rates, and all models experience decreased accuracy in localizing both triggers and payloads. This paper validates the potential of LLM approaches for hardware security applications, highlighting areas for future improvement.
arxiv情報
著者 | Md Omar Faruque,Peter Jamieson,Ahmad Patooghy,Abdel-Hameed A. Badawy |
発行日 | 2024-12-10 16:16:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google