Improved Membership Inference Attacks Against Language Classification Models

要約

人工知能システムは日常生活に普及しており、小売、製造、健康、その他多くの分野で使用例が見られます。
AI の導入の増加に伴い、モデルのトレーニングにデータが使用された人々のプライバシー リスクなど、関連するリスクが特定されています。
機械学習モデルのプライバシー リスクを評価することは、モデルを使用、デプロイ、または共有するかどうかについて知識に基づいた意思決定を可能にするために重要です。
プライバシー リスク評価の一般的なアプローチは、モデルに対して 1 つ以上の既知の攻撃を実行し、その成功率を測定することです。
分類モデルに対してメンバーシップ推論攻撃を実行するための新しいフレームワークを紹介します。
私たちのフレームワークはアンサンブル手法を利用し、データのさまざまなサブセットに対して多くの特殊な攻撃モデルを生成します。
このアプローチは、古典的分類タスクと言語分類タスクの両方において、単一の攻撃モデルまたはクラス ラベルごとの攻撃モデルよりも高い精度を達成することを示します。

要約(オリジナル)

Artificial intelligence systems are prevalent in everyday life, with use cases in retail, manufacturing, health, and many other fields. With the rise in AI adoption, associated risks have been identified, including privacy risks to the people whose data was used to train models. Assessing the privacy risks of machine learning models is crucial to enabling knowledgeable decisions on whether to use, deploy, or share a model. A common approach to privacy risk assessment is to run one or more known attacks against the model and measure their success rate. We present a novel framework for running membership inference attacks against classification models. Our framework takes advantage of the ensemble method, generating many specialized attack models for different subsets of the data. We show that this approach achieves higher accuracy than either a single attack model or an attack model per class label, both on classical and language classification tasks.

arxiv情報

著者 Shlomit Shachor,Natalia Razinkov,Abigail Goldsteen
発行日 2024-07-18 12:55:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク