Information Leakage Detection through Approximate Bayes-optimal Prediction

要約

今日のデータ主導の世界では、公開情報の急増により情報漏洩 (IL) の課題が増大し、セキュリティ上の懸念が生じています。
IL には、システムの監視可能な情報を介して、秘密 (機密) 情報が権限のない当事者に意図せず公開されることが含まれます。
ILを検出するために観測可能な情報と秘密情報の間の相互情報量(MI)を推定する従来の統計的アプローチは、次元性の呪い、収束、計算の複雑さ、MIの誤推定などの課題に直面しています。
さらに、新たな教師あり機械学習 (ML) 手法は効果的ではありますが、バイナリ システムに依存する情報に限定されており、包括的な理論的枠組みが不足しています。
これらの制限に対処するために、統計学習理論と情報理論を使用して、IL を正確に定量化して検出するための理論的枠組みを確立します。
ベイズ予測子の対数損失と精度を近似することで MI を正確に推定できることを示します。
ベイズ予測子は実際には通常未知であるため、自動機械学習 (AutoML) を利用してこれを近似することを提案します。
まず、既知の MI を備えた多変量正規分布 (MVN) 分布を使用して生成された合成データ セットを使用して、MI 推定アプローチを現在のベースラインと比較します。
第 2 に、ホルム・ボンフェローニ補正を使用して検出決定の信頼性を高める、片側統計検定を使用したカットオフ手法を導入して IL を検出します。
私たちの研究では、実世界のデータセットでの IL 検出パフォーマンスを評価し、ベイズ予測子の対数損失推定の有効性を強調し、合成データセットで MI を効果的に推定して IL を正確に検出する提案方法を見つけました。

要約(オリジナル)

In today’s data-driven world, the proliferation of publicly available information intensifies the challenge of information leakage (IL), raising security concerns. IL involves unintentionally exposing secret (sensitive) information to unauthorized parties via systems’ observable information. Conventional statistical approaches, which estimate mutual information (MI) between observable and secret information for detecting IL, face challenges such as the curse of dimensionality, convergence, computational complexity, and MI misestimation. Furthermore, emerging supervised machine learning (ML) methods, though effective, are limited to binary system-sensitive information and lack a comprehensive theoretical framework. To address these limitations, we establish a theoretical framework using statistical learning theory and information theory to accurately quantify and detect IL. We demonstrate that MI can be accurately estimated by approximating the log-loss and accuracy of the Bayes predictor. As the Bayes predictor is typically unknown in practice, we propose to approximate it with the help of automated machine learning (AutoML). First, we compare our MI estimation approaches against current baselines, using synthetic data sets generated using the multivariate normal (MVN) distribution with known MI. Second, we introduce a cut-off technique using one-sided statistical tests to detect IL, employing the Holm-Bonferroni correction to increase confidence in detection decisions. Our study evaluates IL detection performance on real-world data sets, highlighting the effectiveness of the Bayes predictor’s log-loss estimation, and finds our proposed method to effectively estimate MI on synthetic data sets and thus detect ILs accurately.

arxiv情報

著者 Pritha Gupta,Marcel Wever,Eyke Hüllermeier
発行日 2024-01-25 16:15:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62H30, 94A15, 94A60, cs.LG, G.3, stat.ML パーマリンク