Partial Search in a Frozen Network is Enough to Find a Strong Lottery Ticket

要約

ランダムに初期化された密なネットワークには、重み学習なしで高い精度を達成するサブネットワーク–強力な抽選券(SLT)–が含まれている。最近、Gadhikarら(2023)は、ランダムに刈り込まれたソースネットワーク内でもSLTを見つけることができ、SLTの探索空間を縮小できることを実証した。しかし、これでは探索がソースよりもさらにスパースなSLTに制限され、意図しない高いスパース性により精度が悪化する。本論文では、SLT探索空間を、所望のSLTスパース性に依存しない任意の比率で縮小する方法を提案する。初期重みのランダムな部分集合を凍結させることにより、探索空間から除外する — すなわち、恒久的に刈り込むか、SLTの固定部分として固定する。探索空間の削減に加えて、提案するランダム凍結は、推論のためのモデルサイズを削減するという利点も提供できる。さらに、実験結果から、提案手法は、密なまたはランダムに刈り込まれたソースネットワークから得られるSLTよりも、精度対モデルサイズのトレードオフが良いSLTを見つけることができる。特に、ImageNetを用いた画像分類において、凍結ResNetsで発見されたSLTは、密な(非凍結)または疎な(非ロック)ランダムネットワーク内のSLTよりも、精度対探索空間および精度対モデルサイズのトレードオフを大幅に改善する。

要約(オリジナル)

Randomly initialized dense networks contain subnetworks that achieve high accuracy without weight learning — strong lottery tickets (SLTs). Recently, Gadhikar et al. (2023) demonstrated that SLTs can also be found within a randomly pruned source network, thus reducing the SLT search space. However, this limits the search to SLTs that are even sparser than the source, leading to worse accuracy due to unintentionally high sparsity. This paper proposes a method that reduces the SLT search space by an arbitrary ratio independent of the desired SLT sparsity. A random subset of the initial weights is excluded from the search space by freezing it — i.e., by either permanently pruning them or locking them as a fixed part of the SLT. In addition to reducing search space, the proposed random freezing can also provide the benefit of reducing the model size for inference. Furthermore, experimental results show that the proposed method finds SLTs with better accuracy-to-model size trade-off than the SLTs obtained from dense or randomly pruned source networks. In particular, the SLTs found in Frozen ResNets on image classification using ImageNet significantly improve the accuracy-to-search space and accuracy-to-model size trade-offs over SLTs within dense (non-freezing) or sparse (non-locking) random networks.

arxiv情報

著者 Hikari Otsuka,Daiki Chijiwa,Ángel López García-Arias,Yasuyuki Okoshi,Kazushi Kawamura,Thiem Van Chu,Daichi Fujiki,Susumu Takeuchi,Masato Motomura
発行日 2024-06-03 13:12:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク