Investigating White-Box Attacks for On-Device Models

要約

数多くのモバイルアプリがディープラーニング機能を活用している。しかし、オンデバイス・モデルは、対応するモバイル・アプリから簡単に抽出できるため、攻撃に対して脆弱である。既存のオンデバイス攻撃アプローチは、ブラックボックス攻撃を生成するだけで、ホワイトボックス戦略よりもはるかに効果的で効率的ではありません。これは、TFLiteのようなモバイル深層学習フレームワークが、ホワイトボックス攻撃アルゴリズムに必要な勾配計算をサポートしていないためである。したがって、既存の調査結果は、オンデバイス攻撃の有害性を過小評価している可能性があると主張する。このため、この研究課題に答えるための研究を実施する:オンデバイス・モデルはホワイトボックス戦略によって直接攻撃できるのか?まず、オンデバイスモデルをデバッグ可能なバージョンに変換することの難しさを系統的に分析し、コンパイルされたオンデバイスTFLiteモデルをデバッグ可能なモデルに自動的に変換する、オンデバイスモデルのリバースエンジニアリングフレームワーク(REOM)を提案する。具体的には、REOMはまずコンパイルされたオンデバイスモデルをOpen Neural Network Exchangeフォーマットに変換し、次にデバッグ不可能な部分を削除し、攻撃者がホワイトボックス設定で悪用できるデバッグ可能なDLモデルフォーマットに変換する。我々の実験結果は、244のTFLiteモデル間の自動変換を実現する上で、我々のアプローチが効果的であることを示している。サロゲートモデルを使用した従来の攻撃と比較して、REOMは攻撃者が100分の1の小さな攻撃摂動で高い攻撃成功率を達成することを可能にします。さらに、ONNXプラットフォームにはモデルフォーマット交換のためのツールが豊富にあるため、ONNXプラットフォームに基づく提案手法は他のモデルフォーマットにも適応可能である。我々の知見は、開発者がモデルの展開戦略を注意深く検討し、オンデバイスモデルの脆弱性を評価するためにホワイトボックス手法を使用する必要性を強調している。

要約(オリジナル)

Numerous mobile apps have leveraged deep learning capabilities. However, on-device models are vulnerable to attacks as they can be easily extracted from their corresponding mobile apps. Existing on-device attacking approaches only generate black-box attacks, which are far less effective and efficient than white-box strategies. This is because mobile deep learning frameworks like TFLite do not support gradient computing, which is necessary for white-box attacking algorithms. Thus, we argue that existing findings may underestimate the harmfulness of on-device attacks. To this end, we conduct a study to answer this research question: Can on-device models be directly attacked via white-box strategies? We first systematically analyze the difficulties of transforming the on-device model to its debuggable version, and propose a Reverse Engineering framework for On-device Models (REOM), which automatically reverses the compiled on-device TFLite model to the debuggable model. Specifically, REOM first transforms compiled on-device models into Open Neural Network Exchange format, then removes the non-debuggable parts, and converts them to the debuggable DL models format that allows attackers to exploit in a white-box setting. Our experimental results show that our approach is effective in achieving automated transformation among 244 TFLite models. Compared with previous attacks using surrogate models, REOM enables attackers to achieve higher attack success rates with a hundred times smaller attack perturbations. In addition, because the ONNX platform has plenty of tools for model format exchanging, the proposed method based on the ONNX platform can be adapted to other model formats. Our findings emphasize the need for developers to carefully consider their model deployment strategies, and use white-box methods to evaluate the vulnerability of on-device models.

arxiv情報

著者 Mingyi Zhou,Xiang Gao,Jing Wu,Kui Liu,Hailong Sun,Li Li
発行日 2024-03-01 05:22:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR, cs.SE パーマリンク