要約
微分可能アーキテクチャ検索 (DAS) は、時間効率の高いニューラル ネットワーク設計の自動化により、ニューラル アーキテクチャ検索 (NAS) の分野で著名なアプローチとなっています。
これは、離散アーキテクチャのサンプリングと評価という従来のパラダイムを、微分可能なスーパーネットの最適化と離散化に移行します。
ただし、既存の DAS 手法は、粗粒度の操作レベルの検索のみを実行するか、手動で定義された残存比率を使用して粒度の細かいフィルター レベルおよび重みレベルの単位を限定的に探索するため、小さいモデル サイズと満足のいくモデル パフォーマンスを同時に達成することができません。
さらに、検索品質を犠牲にして、検索プロセスの大量のメモリ消費にも対処します。
これらの問題に取り組むために、多粒度アーキテクチャ検索 (MGAS) を導入します。これは、多粒度検索空間を包括的かつメモリ効率よく探索して、効果的かつ効率的なニューラル ネットワークを発見することを目的とした統合フレームワークです。
具体的には、進化するアーキテクチャに従って残りの比率を適応的に決定するために、各粒度レベルに固有の離散化関数を学習します。
これにより、さまざまなターゲット モデル サイズのさまざまな粒度レベルのユニット間で最適なバランスが確保されます。
メモリ需要を考慮して、スーパーネットの最適化と離散化を複数のサブネット段階に分割します。
後続のステージで以前のサブネット内のユニットの再剪定と再拡張を可能にすることで、初期のステージでの潜在的なバイアスを補償します。
CIFAR-10、CIFAR-100、および ImageNet に関する広範な実験により、MGAS がモデルのパフォーマンスとモデル サイズの間のより良いトレードオフを達成する点で他の最先端の方法よりも優れていることが実証されました。
要約(オリジナル)
Differentiable architecture search (DAS) has become the prominent approach in the field of neural architecture search (NAS) due to its time-efficient automation of neural network design. It shifts the traditional paradigm of discrete architecture sampling and evaluation to differentiable super-net optimization and discretization. However, existing DAS methods either only conduct coarse-grained operation-level search, or restrictively explore fine-grained filter-level and weight-level units using manually-defined remaining ratios, which fail to simultaneously achieve small model size and satisfactory model performance. Additionally, they address the high memory consumption of the search process at the expense of search quality. To tackle these issues, we introduce multi-granularity architecture search (MGAS), a unified framework which aims to comprehensively and memory-efficiently explore the multi-granularity search space to discover both effective and efficient neural networks. Specifically, we learn discretization functions specific to each granularity level to adaptively determine the remaining ratios according to the evolving architecture. This ensures an optimal balance among units of different granularity levels for different target model sizes. Considering the memory demands, we break down the super-net optimization and discretization into multiple sub-net stages. By allowing re-pruning and regrowing of units in previous sub-nets during subsequent stages, we compensate for potential bias in earlier stages. Extensive experiments on CIFAR-10, CIFAR-100 and ImageNet demonstrate that MGAS outperforms other state-of-the-art methods in achieving a better trade-off between model performance and model size.
arxiv情報
著者 | Xiaoyun Liu,Divya Saxena,Jiannong Cao,Yuqing Zhao,Penghui Ruan |
発行日 | 2023-10-23 16:32:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google