With Great Backbones Comes Great Adversarial Transferability

要約

マシンビジョンの自己教師あり学習 (SSL) の進歩により、表現の堅牢性とモデルのパフォーマンスが向上し、\emph{SimCLR などの SSL メソッドで調整された \emph{ResNet} モデルや \emph{ViT} モデルなどの事前トレーニング済みバックボーンが誕生しました。
}。
事前トレーニングには計算量とデータの需要があるため、このようなバックボーンの利用は非常に必要になります。
ただし、これらのバックボーンを採用すると、敵対的な攻撃に対する脆弱性が引き継がれる可能性があります。
敵対的な堅牢性は \emph{white-box} および \emph{black-box} 設定で研究されてきましたが、事前学習されたバックボーンで調整されたモデルの堅牢性はほとんど解明されていません。
さらに、悪用リスクの軽減におけるメタ情報の調整の役割は不明です。
この研究では、微調整テクニック、バックボーン ファミリ、データセット、攻撃タイプなど、調整メタ情報の 20,000 ドルの組み合わせ全体にわたって、そのようなモデルの敵対的堅牢性を系統的に評価しています。
私たちは、プロキシ モデルを使用して攻撃を転送し、さまざまな構成でこれらのプロキシを微調整することで、さまざまなレベルのターゲットの知識をシミュレートすることを提案します。
私たちの調査結果では、最小限の調整知識があっても、プロキシベースの攻撃は \emph{white-box} 手法の有効性に近づくことが明らかになりました。
また、バックボーンのみを利用して敵対的なサンプルを生成する単純な「バックボーン攻撃」も紹介します。これは \emph{ブラックボックス} 攻撃を上回り、\emph{ホワイトボックス} 手法に匹敵し、モデル共有の実践における重大なリスクを浮き彫りにします。
最後に、アブレーションにより、メタ情報の調整の増加が攻撃の伝達性にどのような影響を与えるかを明らかにし、各メタ情報の組み合わせを測定します。

要約(オリジナル)

Advances in self-supervised learning (SSL) for machine vision have improved representation robustness and model performance, giving rise to pre-trained backbones like \emph{ResNet} and \emph{ViT} models tuned with SSL methods such as \emph{SimCLR}. Due to the computational and data demands of pre-training, the utilization of such backbones becomes a strenuous necessity. However, employing these backbones may inherit vulnerabilities to adversarial attacks. While adversarial robustness has been studied under \emph{white-box} and \emph{black-box} settings, the robustness of models tuned on pre-trained backbones remains largely unexplored. Additionally, the role of tuning meta-information in mitigating exploitation risks is unclear. This work systematically evaluates the adversarial robustness of such models across $20,000$ combinations of tuning meta-information, including fine-tuning techniques, backbone families, datasets, and attack types. We propose using proxy models to transfer attacks, simulating varying levels of target knowledge by fine-tuning these proxies with diverse configurations. Our findings reveal that proxy-based attacks approach the effectiveness of \emph{white-box} methods, even with minimal tuning knowledge. We also introduce a naive ‘backbone attack,’ leveraging only the backbone to generate adversarial samples, which outperforms \emph{black-box} attacks and rivals \emph{white-box} methods, highlighting critical risks in model-sharing practices. Finally, our ablations reveal how increasing tuning meta-information impacts attack transferability, measuring each meta-information combination.

arxiv情報

著者 Erik Arakelyan,Karen Hambardzumyan,Davit Papikyan,Pasquale Minervini,Albert Gordo,Isabelle Augenstein,Aram H. Markosyan
発行日 2025-01-21 16:44:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG, cs.MA パーマリンク