With Great Backbones Comes Great Adversarial Transferability


マシンビジョンの自己教師あり学習 (SSL) の進歩により、表現の堅牢性とモデルのパフォーマンスが向上し、\emph{SimCLR などの SSL メソッドで調整された \emph{ResNet} モデルや \emph{ViT} モデルなどの事前トレーニング済みバックボーンが誕生しました。
敵対的な堅牢性は \emph{white-box} および \emph{black-box} 設定で研究されてきましたが、事前学習されたバックボーンで調整されたモデルの堅牢性はほとんど解明されていません。
この研究では、微調整テクニック、バックボーン ファミリ、データセット、攻撃タイプなど、調整メタ情報の 20,000 ドルの組み合わせ全体にわたって、そのようなモデルの敵対的堅牢性を系統的に評価しています。
私たちは、プロキシ モデルを使用して攻撃を転送し、さまざまな構成でこれらのプロキシを微調整することで、さまざまなレベルのターゲットの知識をシミュレートすることを提案します。
私たちの調査結果では、最小限の調整知識があっても、プロキシベースの攻撃は \emph{white-box} 手法の有効性に近づくことが明らかになりました。
また、バックボーンのみを利用して敵対的なサンプルを生成する単純な「バックボーン攻撃」も紹介します。これは \emph{ブラックボックス} 攻撃を上回り、\emph{ホワイトボックス} 手法に匹敵し、モデル共有の実践における重大なリスクを浮き彫りにします。


Advances in self-supervised learning (SSL) for machine vision have improved representation robustness and model performance, giving rise to pre-trained backbones like \emph{ResNet} and \emph{ViT} models tuned with SSL methods such as \emph{SimCLR}. Due to the computational and data demands of pre-training, the utilization of such backbones becomes a strenuous necessity. However, employing these backbones may inherit vulnerabilities to adversarial attacks. While adversarial robustness has been studied under \emph{white-box} and \emph{black-box} settings, the robustness of models tuned on pre-trained backbones remains largely unexplored. Additionally, the role of tuning meta-information in mitigating exploitation risks is unclear. This work systematically evaluates the adversarial robustness of such models across $20,000$ combinations of tuning meta-information, including fine-tuning techniques, backbone families, datasets, and attack types. We propose using proxy models to transfer attacks, simulating varying levels of target knowledge by fine-tuning these proxies with diverse configurations. Our findings reveal that proxy-based attacks approach the effectiveness of \emph{white-box} methods, even with minimal tuning knowledge. We also introduce a naive ‘backbone attack,’ leveraging only the backbone to generate adversarial samples, which outperforms \emph{black-box} attacks and rivals \emph{white-box} methods, highlighting critical risks in model-sharing practices. Finally, our ablations reveal how increasing tuning meta-information impacts attack transferability, measuring each meta-information combination.


著者 Erik Arakelyan,Karen Hambardzumyan,Davit Papikyan,Pasquale Minervini,Albert Gordo,Isabelle Augenstein,Aram H. Markosyan
発行日 2025-01-21 16:44:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.CV, cs.LG, cs.MA パーマリンク