要約
モデル抽出攻撃では、攻撃者はパブリック API を介して公開された機械学習モデルを盗み、繰り返しクエリを実行し、得られた予測に基づいて独自のモデルを調整することができます。
モデルの盗用を防ぐために、既存の防御策は悪意のあるクエリの検出、出力の切り捨て、または歪曲に焦点を当てているため、正当なユーザーにとって堅牢性とモデルの有用性との間に必然的にトレードオフが生じます。
代わりに、ユーザーがモデルの予測を読み取る前にプルーフ オブ ワークを完了することをユーザーに要求することで、モデルの抽出を妨げることを提案します。
これにより、モデル抽出のためのクエリ アクセスを活用するために必要な計算作業が大幅に増加し (最大 100 倍)、攻撃者を阻止できます。
プルーフ オブ ワークを完了するために必要な労力をクエリごとに調整するため、通常のユーザーの場合、わずかなオーバーヘッド (最大 2 倍) しか発生しません。
これを達成するために、当社のキャリブレーションでは、差分プライバシーのツールを適用して、クエリによって明らかになった情報を測定します。
私たちの方法は被害者モデルの変更を必要とせず、機械学習の実践者が公開モデルを簡単に盗まれないように保護するために適用できます。
要約(オリジナル)
In model extraction attacks, adversaries can steal a machine learning model exposed via a public API by repeatedly querying it and adjusting their own model based on obtained predictions. To prevent model stealing, existing defenses focus on detecting malicious queries, truncating, or distorting outputs, thus necessarily introducing a tradeoff between robustness and model utility for legitimate users. Instead, we propose to impede model extraction by requiring users to complete a proof-of-work before they can read the model’s predictions. This deters attackers by greatly increasing (even up to 100x) the computational effort needed to leverage query access for model extraction. Since we calibrate the effort required to complete the proof-of-work to each query, this only introduces a slight overhead for regular users (up to 2x). To achieve this, our calibration applies tools from differential privacy to measure the information revealed by a query. Our method requires no modification of the victim model and can be applied by machine learning practitioners to guard their publicly exposed models against being easily stolen.
arxiv情報
著者 | Adam Dziedzic,Muhammad Ahmad Kaleem,Yu Shen Lu,Nicolas Papernot |
発行日 | 2022-12-12 16:11:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google