要約
機械学習アクセラレータ用の信頼された実行環境 (TEE) は、安全で効率的な ML 推論に不可欠です。
アクセラレータ アーキテクチャの状態空間探索を通じてワークロードを最適化すると、パフォーマンスとエネルギー消費が向上します。
ただし、このような探索は、探索スペースが大きいため、費用がかかり、時間がかかります。
現在の研究では、重要なハードウェアの詳細やハードウェア セキュリティのプリミティブに特有のクロスレイヤーの機会を省略した高速分析モデルを使用する必要があります。
サイクル精度の高いモデルは理論的にはより優れた設計に到達できますが、実行時コストが高いため、より小さな状態空間に制限されます。
ML カーネルから安全な ML アクセラレータへの最適なマッピングを見つけるための最適化フレームワークである Obsidian を紹介します。
Obsidian は、解析モデルとサイクル精度の高いモデルを連携して使用して状態空間を探索することで、上記の課題に対処します。
2 つの主な探索コンポーネントには次のものが含まれます。(1) セキュア アクセラレータ分析モデル。これには、大規模なマッピング状態空間を横断しながらセキュア ハードウェアの効果が含まれ、最適な m 個のモデル マッピングが生成されます。
(2) サイクル精度の高いモデル上のコンパイラ プロファイリング ステップ。実行時のボトルネックを捕捉して、実行実行時間、エネルギー、リソースの使用率をさらに改善し、最適なモデル マッピングを見つけます。
私たちの結果を、guardnn [33] と seasame [11] から得られた最先端のセキュリティ スキームで構成されるベースラインのセキュア アクセラレータと比較します。
この分析モデルにより、推論レイテンシーがクラウドで 20.5%、エッジ展開で 8.4% 削減され、エネルギーがそれぞれ 24% と 19% 改善されました。
サイクル精度の高いモデルにより、レイテンシーがクラウドで 9.1%、エッジで 12.2% 削減され、エネルギーが 13.8% と 13.1% 向上します。
要約(オリジナル)
Trusted execution environments (TEEs) for machine learning accelerators are indispensable in secure and efficient ML inference. Optimizing workloads through state-space exploration for the accelerator architectures improves performance and energy consumption. However, such explorations are expensive and slow due to the large search space. Current research has to use fast analytical models that forego critical hardware details and cross-layer opportunities unique to the hardware security primitives. While cycle-accurate models can theoretically reach better designs, their high runtime cost restricts them to a smaller state space. We present Obsidian, an optimization framework for finding the optimal mapping from ML kernels to a secure ML accelerator. Obsidian addresses the above challenge by exploring the state space using analytical and cycle-accurate models cooperatively. The two main exploration components include: (1) A secure accelerator analytical model, that includes the effect of secure hardware while traversing the large mapping state space and produce the best m model mappings; (2) A compiler profiling step on a cycle-accurate model, that captures runtime bottlenecks to further improve execution runtime, energy and resource utilization and find the optimal model mapping. We compare our results to a baseline secure accelerator, comprising of the state-of-the-art security schemes obtained from guardnn [ 33 ] and sesame [11]. The analytical model reduces the inference latency by 20.5% for a cloud and 8.4% for an edge deployment with an energy improvement of 24% and 19% respectively. The cycle-accurate model, further reduces the latency by 9.1% for a cloud and 12.2% for an edge with an energy improvement of 13.8% and 13.1%.
arxiv情報
著者 | Sarbartha Banerjee,Shijia Wei,Prakash Ramrakhyani,Mohit Tiwari |
発行日 | 2024-09-04 15:35:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google