Lost in Translation: Modern Neural Networks Still Struggle With Small Realistic Image Transformations

要約

画像分類において顕著なパフォーマンスを達成するディープ ニューラル ネットワークは、入力画像の 1 ピクセルの変換などの小さな変換によって簡単にだまされることが以前に示されています。
この問題に対処するために、近年 2 つのアプローチが提案されています。
最初のアプローチは、非常に多様なトレーニング セットがネットワークに不変であることを学習させることを期待して、巨大なデータセットをデータ拡張とともに使用することを提案しています。
2 番目のアプローチは、サンプリング理論に基づいたアーキテクチャの変更を使用して、画像の変換を明示的に処理することを提案します。
この論文では、これらのアプローチでは、カメラの向きの微妙な変化をシミュレートする「自然な」画像変換を確実に処理するにはまだ不十分であることを示します。
私たちの調査結果では、わずか 1 ピクセルの変換により、最先端のモデル (LAION-2B または DINO でトレーニングされたオープン CLIP など) のテスト画像の約 40% で予測画像表現が大幅に変化する可能性があることが明らかになりました。
-v2) ですが、循環変換に対して堅牢であるように明示的に構築されたモデルは、11% の確率で 1 ピクセルの現実的な (非循環) 変換でだまされる可能性があります。
クロップ選択によるロバスト推論を紹介します。これは、モデルの精度とのトレードオフは若干ありますが、望ましいレベルの一貫性を達成できることが証明できるシンプルな方法です。
重要なのは、この方法を採用すると、分類精度の低下がわずか 1% であるにもかかわらず、1 ピクセルの変換で最先端のモデルを騙す能力が 5% 未満に低下することを示しています。
さらに、循環シフトにも対処するために私たちの方法を簡単に調整できることを示します。
このような場合、最先端の精度で整数シフトに対する 100% の堅牢性を達成し、さらなるトレーニングは必要ありません。

要約(オリジナル)

Deep neural networks that achieve remarkable performance in image classification have previously been shown to be easily fooled by tiny transformations such as a one pixel translation of the input image. In order to address this problem, two approaches have been proposed in recent years. The first approach suggests using huge datasets together with data augmentation in the hope that a highly varied training set will teach the network to learn to be invariant. The second approach suggests using architectural modifications based on sampling theory to deal explicitly with image translations. In this paper, we show that these approaches still fall short in robustly handling ‘natural’ image translations that simulate a subtle change in camera orientation. Our findings reveal that a mere one-pixel translation can result in a significant change in the predicted image representation for approximately 40% of the test images in state-of-the-art models (e.g. open-CLIP trained on LAION-2B or DINO-v2) , while models that are explicitly constructed to be robust to cyclic translations can still be fooled with 1 pixel realistic (non-cyclic) translations 11% of the time. We present Robust Inference by Crop Selection: a simple method that can be proven to achieve any desired level of consistency, although with a modest tradeoff with the model’s accuracy. Importantly, we demonstrate how employing this method reduces the ability to fool state-of-the-art models with a 1 pixel translation to less than 5% while suffering from only a 1% drop in classification accuracy. Additionally, we show that our method can be easy adjusted to deal with circular shifts as well. In such case we achieve 100% robustness to integer shifts with state-of-the-art accuracy, and with no need for any further training.

arxiv情報

著者 Ofir Shifman,Yair Weiss
発行日 2024-04-10 16:39:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク