AdaNCA: Neural Cellular Automata As Adaptors For More Robust Vision Transformer

要約

ビジョン トランスフォーマー (ViT) は、特に領域アテンションや畳み込みを介してローカル情報を備えた場合に、画像分類タスクで顕著なパフォーマンスを発揮します。
このようなアーキテクチャは、さまざまな粒度からの機能の集約を向上させますが、多くの場合、ネットワークの堅牢性に貢献できません。
Neural Cellular Automata (NCA) は、ローカルな相互作用を通じてグローバルなセル表現のモデリングを可能にし、そのトレーニング戦略とアーキテクチャ設計により、強力な一般化能力とノイズの多い入力に対する堅牢性が与えられます。
この論文では、ViT レイヤー間のプラグインプレイ アダプターとして NCA を使用する Vision Transformer 用のアダプター ニューラル セルラー オートマトン (AdaNCA) を提案します。これにより、敵対的なサンプルや分布外の入力に対する ViT のパフォーマンスと堅牢性が強化されます。
標準 NCA の大きな計算オーバーヘッドを克服するために、より効率的な対話学習のための動的対話を提案します。
さらに、AdaNCA の配置と堅牢性の向上の分析に基づいて、AdaNCA の最も効果的な挿入ポイントを特定するためのアルゴリズムを開発します。
AdaNCA は、パラメーターの 3% 未満の増加で、ImageNet1K ベンチマークに対する敵対的攻撃の下での精度の絶対的な 10% 以上の向上に貢献します。
さらに、8 つの堅牢性ベンチマークと 4 つの ViT アーキテクチャにわたる広範な評価により、AdaNCA がプラグインプレイ モジュールとして ViT の堅牢性を一貫して向上させることを実証しています。

要約(オリジナル)

Vision Transformers (ViTs) have demonstrated remarkable performance in image classification tasks, particularly when equipped with local information via region attention or convolutions. While such architectures improve the feature aggregation from different granularities, they often fail to contribute to the robustness of the networks. Neural Cellular Automata (NCA) enables the modeling of global cell representations through local interactions, with its training strategies and architecture design conferring strong generalization ability and robustness against noisy inputs. In this paper, we propose Adaptor Neural Cellular Automata (AdaNCA) for Vision Transformer that uses NCA as plug-in-play adaptors between ViT layers, enhancing ViT’s performance and robustness against adversarial samples as well as out-of-distribution inputs. To overcome the large computational overhead of standard NCAs, we propose Dynamic Interaction for more efficient interaction learning. Furthermore, we develop an algorithm for identifying the most effective insertion points for AdaNCA based on our analysis of AdaNCA placement and robustness improvement. With less than a 3% increase in parameters, AdaNCA contributes to more than 10% absolute improvement in accuracy under adversarial attacks on the ImageNet1K benchmark. Moreover, we demonstrate with extensive evaluations across 8 robustness benchmarks and 4 ViT architectures that AdaNCA, as a plug-in-play module, consistently improves the robustness of ViTs.

arxiv情報

著者 Yitao Xu,Tong Zhang,Sabine Süsstrunk
発行日 2024-06-12 14:59:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク