要約
最新の CAPTCHA は、コンピュータにとっては難しくても人間にとっては簡単であると思われる視覚タスクに大きく依存しています。
しかし、画像認識モデルの進歩は、このような CAPTCHA に重大な脅威をもたらします。
これらのモデルは、うまく隠された「ランダム」ノイズを生成して画像に追加したり、画像内のオブジェクトを隠したりすることで簡単に騙されます。
ただし、これらのメソッドはモデル固有であるため、CAPTCHA がすべてのモデルを騙すのに役立つわけではありません。
私たちはこの研究で、意味情報を保持し人間が解決できる状態に保ちながら、画像に対するより大幅な変更を許可することで、多くの最先端のモデルをだますことができることを示しています。
具体的には、さまざまな強度のマスクを追加すると、Accuracy @ 1 (Acc@1) がすべてのモデルで 50% ポイント以上低下し、ビジョン トランスフォーマーなどのおそらく堅牢なモデルでは Acc@1 が 80% 低下することを示します。
ポイント。
したがって、これらのマスクは現代の画像分類器を効果的に騙すことができ、機械がまだ人間に追いついていないことを示しています。
要約(オリジナル)
Modern CAPTCHAs rely heavily on vision tasks that are supposedly hard for computers but easy for humans. However, advances in image recognition models pose a significant threat to such CAPTCHAs. These models can easily be fooled by generating some well-hidden ‘random’ noise and adding it to the image, or hiding objects in the image. However, these methods are model-specific and thus can not aid CAPTCHAs in fooling all models. We show in this work that by allowing for more significant changes to the images while preserving the semantic information and keeping it solvable by humans, we can fool many state-of-the-art models. Specifically, we demonstrate that by adding masks of various intensities the Accuracy @ 1 (Acc@1) drops by more than 50%-points for all models, and supposedly robust models such as vision transformers see an Acc@1 drop of 80%-points. These masks can therefore effectively fool modern image classifiers, thus showing that machines have not caught up with humans — yet.
arxiv情報
著者 | Yahya Jabary,Andreas Plesner,Turlan Kuzhagaliyev,Roger Wattenhofer |
発行日 | 2024-09-09 12:29:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google