要約
最近、単眼深度推定 (MDE) のパフォーマンスが大幅に向上しました。これは主に革新的なアーキテクチャ、つまり畳み込みニューラル ネットワーク (CNN) とトランスフォーマーの統合によるものです。
それにもかかわらず、これらのモデルが敵対的攻撃に対して脆弱であることが、特に安全性とセキュリティが最優先されるドメインにおいて、注目すべき懸念事項として浮上しています。
MDE は、シーンの正確な理解が極めて重要である自動運転やロボット ナビゲーションなどのアプリケーションで重要な役割を果たしているため、この懸念は特に重要です。
CNN ベースの深度予測手法の脆弱性を評価するために、最近の研究では、MDE に対する敵対的パッチを設計することが試みられています。
しかし、既存のアプローチでは、視覚システムに包括的かつ実質的に破壊的な影響を与えるには至っていません。
むしろ、その影響は部分的であり、特定の地域に限定されています。
これらの手法では、対象物体の大きさ、形状、位置などの特性を考慮せず、入力画像と重複する領域内のみでの奥行き予測を誤ってしまう。
このペーパーでは、APARATE という名前の新しい敵対的パッチを紹介します。
このパッチには、推定距離を歪めるか、自律システムの視点から物体が消えるかのような錯覚を作り出すという 2 つの異なる方法で MDE を選択的に弱体化させる機能があります。
特に、APARATE はターゲット オブジェクトの形状とスケールに敏感になるように設計されており、その影響はすぐ近くを超えて広がります。
APARATE の場合、深度推定の平均誤差は $0.5$ を超え、CNN ベースの MDE モデルに適用すると、ターゲット領域の $99\%$ もの重大な影響を及ぼします。
さらに、$0.34$ という重大な誤差が生じ、Transformer ベースの MDE のコンテキストではターゲット領域の $94\%$ に大きな影響を及ぼします。
要約(オリジナル)
In recent times, monocular depth estimation (MDE) has experienced significant advancements in performance, largely attributed to the integration of innovative architectures, i.e., convolutional neural networks (CNNs) and Transformers. Nevertheless, the susceptibility of these models to adversarial attacks has emerged as a noteworthy concern, especially in domains where safety and security are paramount. This concern holds particular weight for MDE due to its critical role in applications like autonomous driving and robotic navigation, where accurate scene understanding is pivotal. To assess the vulnerability of CNN-based depth prediction methods, recent work tries to design adversarial patches against MDE. However, the existing approaches fall short of inducing a comprehensive and substantially disruptive impact on the vision system. Instead, their influence is partial and confined to specific local areas. These methods lead to erroneous depth predictions only within the overlapping region with the input image, without considering the characteristics of the target object, such as its size, shape, and position. In this paper, we introduce a novel adversarial patch named APARATE. This patch possesses the ability to selectively undermine MDE in two distinct ways: by distorting the estimated distances or by creating the illusion of an object disappearing from the perspective of the autonomous system. Notably, APARATE is designed to be sensitive to the shape and scale of the target object, and its influence extends beyond immediate proximity. APARATE, results in a mean depth estimation error surpassing $0.5$, significantly impacting as much as $99\%$ of the targeted region when applied to CNN-based MDE models. Furthermore, it yields a significant error of $0.34$ and exerts substantial influence over $94\%$ of the target region in the context of Transformer-based MDE.
arxiv情報
著者 | Amira Guesmi,Muhammad Abdullah Hanif,Ihsen Alouani,Muhammad Shafique |
発行日 | 2023-11-20 11:29:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google