Red-Teaming Segment Anything Model

要約

基盤モデルは、膨大なデータセットでの事前トレーニングとその後の特定のアプリケーション向けの微調整を通じて、多くの複雑なタスクに取り組む極めて重要なツールとして登場しました。
Segment Anything Model は、コンピューター ビジョン セグメンテーション タスクの最初の最もよく知られた基礎モデルの 1 つです。
この研究では、困難なタスクに対してセグメント何でもモデルをテストする多面的なレッドチーム分析を示します。 (1) セグメンテーション マスクに対するスタイル転送の影響を分析し、市道のダッシュボード イメージに悪天候や雨滴を適用することが大幅に影響することを示します。
生成されたマスクを歪めます。
(2) モデルが有名人の顔を認識するなどのプライバシーへの攻撃に使用できるかどうかを評価することに焦点を当て、モデルがこのタスクにおいて望ましくない知識を保有していることを示します。
(3) 最後に、テキスト プロンプトの下でセグメンテーション マスクに対する敵対的攻撃に対してモデルがどの程度堅牢であるかを確認します。
一般的なホワイト ボックス攻撃の有効性とブラック ボックス攻撃に対する耐性を示すだけでなく、ホワイト ボックス アプローチを組み合わせて効率的な攻撃を構築する新しいアプローチである集中反復勾配攻撃 (FIGA) も紹介します。
修正されたピクセル。
私たちのテスト方法と分析はすべて、画像セグメンテーションの基礎モデルにおける安全対策の強化の必要性を示しています。

要約(オリジナル)

Foundation models have emerged as pivotal tools, tackling many complex tasks through pre-training on vast datasets and subsequent fine-tuning for specific applications. The Segment Anything Model is one of the first and most well-known foundation models for computer vision segmentation tasks. This work presents a multi-faceted red-teaming analysis that tests the Segment Anything Model against challenging tasks: (1) We analyze the impact of style transfer on segmentation masks, demonstrating that applying adverse weather conditions and raindrops to dashboard images of city roads significantly distorts generated masks. (2) We focus on assessing whether the model can be used for attacks on privacy, such as recognizing celebrities’ faces, and show that the model possesses some undesired knowledge in this task. (3) Finally, we check how robust the model is to adversarial attacks on segmentation masks under text prompts. We not only show the effectiveness of popular white-box attacks and resistance to black-box attacks but also introduce a novel approach – Focused Iterative Gradient Attack (FIGA) that combines white-box approaches to construct an efficient attack resulting in a smaller number of modified pixels. All of our testing methods and analyses indicate a need for enhanced safety measures in foundation models for image segmentation.

arxiv情報

著者 Krzysztof Jankowski,Bartlomiej Sobieski,Mateusz Kwiatkowski,Jakub Szulc,Michal Janik,Hubert Baniecki,Przemyslaw Biecek
発行日 2024-04-02 16:07:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク