Improving Viewpoint Robustness for Visual Recognition via Adversarial Training

要約

視点の不変性は、3D 世界における視覚認識にとって依然として課題であり、視点の方向を変更すると同じオブジェクトの予測に大きな影響を与える可能性があります。
ニューラル ネットワークを 2D 画像の平行移動や回転に対して不変にするために多大な努力が払われてきましたが、視点の不変性についてはほとんど調査されていません。
モデルの堅牢性を高めるための敵対的トレーニングの成功を動機として、画像分類器の視点の堅牢性を向上させるための視点不変敵対的トレーニング (VIAT) を提案します。
攻撃としての視点変換に関して、提案された攻撃手法GMVFoolに基づいて混合ガウス分布を学習することにより、内部最大化が多様な敵対的な視点を特徴付けるミニマックス最適化問題としてVIATを定式化します。
外側の最小化では、同じカテゴリ内の異なるオブジェクトに対して同じものを共有する可能性がある最悪の視点分布に対する予想される損失を最小限に抑えることにより、視点不変の分類器が得られます。
GMVFool に基づいて、視点の堅牢性をベンチマークするために ImageNet-V+ と呼ばれる大規模なデータセットを提供します。
実験結果は、VIAT が、GMVFool によって生成された敵対的な視点の多様性に基づいて、さまざまな画像分類器の視点の堅牢性を大幅に向上させることを示しています。
さらに、理論的観点から VIAT の有効性を実証するために認定された半径と精度を提供する認定された視点ロバスト性手法である ViewRS を提案します。

要約(オリジナル)

Viewpoint invariance remains challenging for visual recognition in the 3D world, as altering the viewing directions can significantly impact predictions for the same object. While substantial efforts have been dedicated to making neural networks invariant to 2D image translations and rotations, viewpoint invariance is rarely investigated. Motivated by the success of adversarial training in enhancing model robustness, we propose Viewpoint-Invariant Adversarial Training (VIAT) to improve the viewpoint robustness of image classifiers. Regarding viewpoint transformation as an attack, we formulate VIAT as a minimax optimization problem, where the inner maximization characterizes diverse adversarial viewpoints by learning a Gaussian mixture distribution based on the proposed attack method GMVFool. The outer minimization obtains a viewpoint-invariant classifier by minimizing the expected loss over the worst-case viewpoint distributions that can share the same one for different objects within the same category. Based on GMVFool, we contribute a large-scale dataset called ImageNet-V+ to benchmark viewpoint robustness. Experimental results show that VIAT significantly improves the viewpoint robustness of various image classifiers based on the diversity of adversarial viewpoints generated by GMVFool. Furthermore, we propose ViewRS, a certified viewpoint robustness method that provides a certified radius and accuracy to demonstrate the effectiveness of VIAT from the theoretical perspective.

arxiv情報

著者 Shouwei Ruan,Yinpeng Dong,Hang Su,Jianteng Peng,Ning Chen,Xingxing Wei
発行日 2023-07-21 12:18:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク