LayerShuffle: Enhancing Robustness in Vision Transformers by Randomizing Layer Execution Order

要約

人工ニューラルネットワークは、そのアーキテクチャーや学習方法から、テスト時にレイヤーを刈り込んだり、入れ替えたり、シャッフルしたりすることに対して一般的にロバストではない。しかし、このような特性は、実行順序が保証されない分散ニューラルネットワークアーキテクチャや、推論中にネットワークの一部が故障する可能性があるような、さまざまなアプリケーションにとって望ましい。本研究では、視覚変換器のための多くの訓練アプローチを提案し、その最も重要な要素は、訓練時に注意モジュールの実行順序をランダムにすることである。我々の提案するアプローチにより、視覚変換器は、同じモデルサイズでの精度の低下(約20%)を許容すると仮定した場合、テスト時に任意のレイヤーの実行順序に適応できることを示す。また、学習したモデル同士をランダムに結合することで、元モデルと比較して性能を落とすことなく、機能的な(「フランケンシュタイン」)モデルを生成できることもわかった。最後に、テスト時にモデルのレイヤープルーニングを行い、その性能が潔く低下することを発見した。

要約(オリジナル)

Due to their architecture and how they are trained, artificial neural networks are typically not robust toward pruning, replacing, or shuffling layers at test time. However, such properties would be desirable for different applications, such as distributed neural network architectures where the order of execution cannot be guaranteed or parts of the network can fail during inference. In this work, we address these issues through a number of proposed training approaches for vision transformers whose most important component is randomizing the execution order of attention modules at training time. We show that with our proposed approaches, vision transformers are indeed capable to adapt to arbitrary layer execution orders at test time assuming one tolerates a reduction (about 20\%) in accuracy at the same model size. We also find that our trained models can be randomly merged with each other resulting in functional (‘Frankenstein’) models without loss of performance compared to the source models. Finally, we layer-prune our models at test time and find that their performance declines gracefully.

arxiv情報

著者 Matthias Freiberger,Peter Kun,Anders Sundnes Løvlie,Sebastian Risi
発行日 2024-07-05 13:54:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク