Data Level Lottery Ticket Hypothesis for Vision Transformers

要約

タイトル:Vision Transformerのためのデータレベル抽選券仮説
要約:

– 通常の抽選券仮説(LTH)は、密なニューラルネットワーク内に疎なサブネットワークが存在し、適切なランダム初期化方法である抽選券が存在するため、その抽選券からスクラッチでトレーニングが可能とされる。
– LTHの研究は既に進んでいるが、Vision Transformer(ViT)におけるLTHの研究はまだ評価が不十分である。
– 本論文では、既存の方法ではViTの重みレベルで抽選券を発見することが困難であることを示し、代わりにViTの入力に含まれる画像パッチにLTHを一般化する。
– つまり、ViTは特定の画像パッチのサブセットを使用してスクラッチでトレーニングでき、全画像パッチを使用したものと同等の精度を達成できるということ。
– この入力パッチのサブセットをem-winning ticketと呼び、入力データに重要な情報が含まれている。
– Ticket selectorを使用して、DeiT、LV-ViT、Swin TransformersなどのさまざまなタイプのViTに対して勝者のチケットを生成する。
– 実験結果は、勝者のチケットでトレーニングされたモデルとランダムに選択されたサブセットでトレーニングされたモデルのパフォーマンスに明らかな違いがあることを示し、提案理論が正しいことを検証する。
– さらに、本論文では提案されたData-LTH-ViTsと従来のLTHの類推的な類似性について詳しく説明し、理論の正当性を検証する。コードは付録で提供される。

要約(オリジナル)

The conventional lottery ticket hypothesis (LTH) claims that there exists a sparse subnetwork within a dense neural network and a proper random initialization method called the winning ticket, such that it can be trained from scratch to almost as good as the dense counterpart. Meanwhile, the research of LTH in vision transformers (ViTs) is scarcely evaluated. In this paper, we first show that the conventional winning ticket is hard to find at the weight level of ViTs by existing methods. Then, we generalize the LTH for ViTs to input data consisting of image patches inspired by the input dependence of ViTs. That is, there exists a subset of input image patches such that a ViT can be trained from scratch by using only this subset of patches and achieve similar accuracy to the ViTs trained by using all image patches. We call this subset of input patches the em winning tickets, which represent a significant amount of information in the input data. We use a ticket selector to generate the winning tickets based on the informativeness of patches for various types of ViT, including DeiT, LV-ViT, and Swin Transformers. The experiments show that there is a clear difference between the performance of models trained with winning tickets and randomly selected subsets, which verifies our proposed theory. We elaborate on the analogical similarity between our proposed Data-LTH-ViTs and the conventional LTH to further verify the integrity of our theory. The code is provided in the supplementary.

arxiv情報

著者 Xuan Shen,Zhenglun Kong,Minghai Qin,Peiyan Dong,Geng Yuan,Xin Meng,Hao Tang,Xiaolong Ma,Yanzhi Wang
発行日 2023-04-25 04:36:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG パーマリンク