Assessing Neural Network Robustness via Adversarial Pivotal Tuning

要約

多様な一連の操作に対する画像分類子の堅牢性を評価する機能は、現実世界での展開に不可欠です。
最近、標準の敵対的設定を使用して発生しない可能性があるため、この目的のために実際の画像の意味操作が検討されています。
ただし、このようなセマンティック操作は、多くの場合、スタイル、色、または属性の変更に限定されます。
これらの操作は表現力豊かですが、敵対的な画像操作に影響を与える事前トレーニング済みのジェネレーターの全容量を考慮していません。
この作業では、事前トレーニング済みの画像ジェネレーターの全機能を活用して、非常に詳細で多様なフォトリアリスティックな画像操作を生成することを目指しています。
最近の GAN ベースの画像反転手法に着想を得て、Adversarial Pivotal Tuning (APT) と呼ばれる手法を提案します。
APT はまず、入力画像を最適に再構築する事前トレーニング済みジェネレーターへのピボット潜在空間入力を見つけます。
次に、ジェネレーターの重みを調整して、事前トレーニング済みの分類器を騙す小さいながらもセマンティックな操作を作成します。
重要なことに、APT は、事前訓練されたジェネレーターの入力と重みの両方を変更しますが、表現力のある潜在的な編集機能を維持するため、セマンティックな敵対的操作を作成する際にその能力を最大限に活用できます。
APT がさまざまなセマンティックな画像操作を生成することを示します。これらは入力画像クラスを保持しますが、事前に訓練されたさまざまな分類子を騙します。
さらに、他のロバスト性ベンチマークに対してロバストになるようにトレーニングされた分類器が、生成された操作に対してロバストではないことを示し、生成された操作に対するロバスト性を改善するアプローチを提案します。
コードは https://captaine.github.io/apt/ で入手できます。

要約(オリジナル)

The ability to assess the robustness of image classifiers to a diverse set of manipulations is essential to their deployment in the real world. Recently, semantic manipulations of real images have been considered for this purpose, as they may not arise using standard adversarial settings. However, such semantic manipulations are often limited to style, color or attribute changes. While expressive, these manipulations do not consider the full capacity of a pretrained generator to affect adversarial image manipulations. In this work, we aim at leveraging the full capacity of a pretrained image generator to generate highly detailed, diverse and photorealistic image manipulations. Inspired by recent GAN-based image inversion methods, we propose a method called Adversarial Pivotal Tuning (APT). APT first finds a pivot latent space input to a pretrained generator that best reconstructs an input image. It then adjusts the weights of the generator to create small, but semantic, manipulations which fool a pretrained classifier. Crucially, APT changes both the input and the weights of the pretrained generator, while preserving its expressive latent editing capability, thus allowing the use of its full capacity in creating semantic adversarial manipulations. We demonstrate that APT generates a variety of semantic image manipulations, which preserve the input image class, but which fool a variety of pretrained classifiers. We further demonstrate that classifiers trained to be robust to other robustness benchmarks, are not robust to our generated manipulations and propose an approach to improve the robustness towards our generated manipulations. Code available at: https://captaine.github.io/apt/

arxiv情報

著者 Peter Ebert Christensen,Vésteinn Snæbjarnarson,Andrea Dittadi,Serge Belongie,Sagie Benaim
発行日 2022-11-17 18:54:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG パーマリンク