要約
大規模ビジョン モデルは、その前例のないパフォーマンスと下流タスク全体にわたる多用途性により、多くのアプリケーションに不可欠なものとなっています。
ただし、これらの基礎モデルの堅牢性は、主に単一のタスク、つまり画像分類について調査されてきました。
セマンティック セグメンテーションや深度推定など、他の一般的な視覚タスクの脆弱性はほとんど知られていないままです。
我々は、複数の下流タスクにわたる自己教師ありビジョンエンコーダの敵対的堅牢性の包括的な経験的評価を提示します。
私たちの攻撃は、エンコーダ埋め込み空間と下流タスクの出力レベルで行われます。
どちらの場合も、分類のみを目的としてテストされた現在の最先端の敵対的微調整技術は、他のタスクのクリーンで堅牢なパフォーマンスを大幅に低下させます。
基礎モデルの目的は、一度に複数のアプリケーションに対応することであるため、今回の調査結果では、エンコーダの堅牢性をより広範に強化する必要があることが明らかになりました。
私たちのコードは ${github.com/layer6ai-labs/ssl-robustness}$ で入手できます。
要約(オリジナル)
Large-scale vision models have become integral in many applications due to their unprecedented performance and versatility across downstream tasks. However, the robustness of these foundation models has primarily been explored for a single task, namely image classification. The vulnerability of other common vision tasks, such as semantic segmentation and depth estimation, remains largely unknown. We present a comprehensive empirical evaluation of the adversarial robustness of self-supervised vision encoders across multiple downstream tasks. Our attacks operate in the encoder embedding space and at the downstream task output level. In both cases, current state-of-the-art adversarial fine-tuning techniques tested only for classification significantly degrade clean and robust performance on other tasks. Since the purpose of a foundation model is to cater to multiple applications at once, our findings reveal the need to enhance encoder robustness more broadly. Our code is available at ${github.com/layer6ai-labs/ssl-robustness}$.
arxiv情報
著者 | Antoni Kowalczuk,Jan Dubiński,Atiyeh Ashari Ghomi,Yi Sui,George Stein,Jiapeng Wu,Jesse C. Cresswell,Franziska Boenisch,Adam Dziedzic |
発行日 | 2024-07-18 06:55:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google