TabularBench: Benchmarking Adversarial Robustness for Tabular Deep Learning in Real-world Use-cases

要約

コンピュータビジョンにおける敵対的堅牢性は成熟した研究分野ですが、表形式ディープラーニングに対する回避攻撃に取り組んでいる研究者は少なく、堅牢化メカニズムと信頼性の高い防御を調査している研究者はさらに少ないです。
私たちは、表形式の敵対的攻撃に関する研究におけるこの遅れは、標準化されたベンチマークの欠如が一因であると仮説を立てています。
このギャップを埋めるために、表形式の深層学習分類モデルの堅牢性を示す最初の包括的なベンチマークである TabularBench を提案します。
私たちは、表形式モデルに対する最も効果的な攻撃として最近実証された勾配攻撃と検索攻撃のアンサンブルである CAA を使用して、敵対的な堅牢性を評価しました。
新しいモデルと防御の提出を歓迎するオープン ベンチマーク (https://github.com/serval-uni-lu/tabularbench) に加えて、コンピューターの最先端の防御からインスピレーションを得た 7 つの堅牢化メカニズムを実装しています。
ビジョンを作成し、金融、医療、セキュリティの 5 つの重要なシナリオにわたる 200 モデルを超える堅牢な表形式ディープ ラーニングの最大のベンチマークを提案します。
私たちはユースケースごとに実際のデータセットを厳選し、何十万もの現実的な合成入力で強化し、データ拡張の有無にかかわらずモデルをトレーニングして評価しました。
当社は、すべての事前トレーニング済みの堅牢な表形式モデル、および実際の表形式入力と合成表形式入力の最大のデータセットへの API アクセスを提供するライブラリをオープンソース化しています。
最後に、さまざまな防御が堅牢性に及ぼす影響を分析し、新しい防御と堅牢化メカニズムを設計するための実用的な洞察を提供します。

要約(オリジナル)

While adversarial robustness in computer vision is a mature research field, fewer researchers have tackled the evasion attacks against tabular deep learning, and even fewer investigated robustification mechanisms and reliable defenses. We hypothesize that this lag in the research on tabular adversarial attacks is in part due to the lack of standardized benchmarks. To fill this gap, we propose TabularBench, the first comprehensive benchmark of robustness of tabular deep learning classification models. We evaluated adversarial robustness with CAA, an ensemble of gradient and search attacks which was recently demonstrated as the most effective attack against a tabular model. In addition to our open benchmark (https://github.com/serval-uni-lu/tabularbench) where we welcome submissions of new models and defenses, we implement 7 robustification mechanisms inspired by state-of-the-art defenses in computer vision and propose the largest benchmark of robust tabular deep learning over 200 models across five critical scenarios in finance, healthcare and security. We curated real datasets for each use case, augmented with hundreds of thousands of realistic synthetic inputs, and trained and assessed our models with and without data augmentations. We open-source our library that provides API access to all our pre-trained robust tabular models, and the largest datasets of real and synthetic tabular inputs. Finally, we analyze the impact of various defenses on the robustness and provide actionable insights to design new defenses and robustification mechanisms.

arxiv情報

著者 Thibault Simonetto,Salah Ghamizi,Maxime Cordy
発行日 2024-08-14 14:23:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク