ZiCo: Zero-shot NAS via Inverse Coefficient of Variation on Gradients

要約

タイトル:ZiCo: Gradientの変動係数を利用したゼロショットNAS

要約:Neural Architecture Search (NAS)は、多数の候補ネットワークアーキテクチャから最も優れた性能を持つニューラルネットワークを自動的に取得するために広く使用されています。検索時間を短縮するために、ゼロショットNASはトレーニングフリーのプロキシを設計し、与えられたアーキテクチャのテストパフォーマンスを予測することを目指しています。しかし、最近示されたように、これまでに提案されたゼロショットプロキシのいずれも、単純なプロキシであるネットワークパラメータ数(#Params)よりも一貫して優れた結果を発揮することができません。この状況を改善するために、主な理論貢献として、私たちは、異なるサンプル間の特定の勾配の特性がニューラルネットワークの収束率と汎化能力にどのように影響を与えるかを最初に明らかにします。この理論的分析に基づいて、私たちは新しいゼロショットプロキシZiCoを提案しました。これは、#Paramsよりも一貫して優れたプロキシとして初めて機能します。私たちは、ZiCoがいくつかの人気のあるNASベンチマーク(NASBench101、NATSBench-SSS / TSS、TransNASBench-101)で、複数のアプリケーション(画像分類/再構築、ピクセルレベル予測など)に対してState-Of-The-Art(SOTA)プロキシよりも優れていることを示しています。最後に、ZiCoによって見つかった最適なアーキテクチャは、1ショットやマルチショットのNAS手法で見つかるものと同等の競争力を持っていますが、検索時間がはるかに短いです。例えば、ZiCoベースのNASは、0.4 GPUデイ以内に、450M、600M、および1000M FLOPの推論予算でImageNetで78.1%、79.4%、および80.4%のテスト精度を持つ最適なアーキテクチャを見つけることができます。私たちのコードはhttps://github.com/SLDGroup/ZiCoで利用可能です。

– Neural Architecture Search (NAS)は、最も優れた性能を持つニューラルネットワークを自動的に取得するために使用されます。
– ゼロショットNASは、トレーニングフリーのプロキシを設計して、与えられたアーキテクチャのテストパフォーマンスを予測することを目指します。
– これまでに提案されたゼロショットプロキシのいずれも、#Paramsよりも一貫して優れた結果を発揮することができませんでした。
– 新しいゼロショットプロキシZiCoは、#Paramsよりも一貫して優れたプロキシとして初めて機能します。
– ZiCoは、人気のあるNASベンチマークでSOTAプロキシよりも優れた結果を発揮します。
– ZiCoによって見つかった最適なアーキテクチャは、1ショットやマルチショットのNAS手法で見つかるものと同等の競争力を持っていますが、検索時間がはるかに短いです。

要約(オリジナル)

Neural Architecture Search (NAS) is widely used to automatically obtain the neural network with the best performance among a large number of candidate architectures. To reduce the search time, zero-shot NAS aims at designing training-free proxies that can predict the test performance of a given architecture. However, as shown recently, none of the zero-shot proxies proposed to date can actually work consistently better than a naive proxy, namely, the number of network parameters (#Params). To improve this state of affairs, as the main theoretical contribution, we first reveal how some specific gradient properties across different samples impact the convergence rate and generalization capacity of neural networks. Based on this theoretical analysis, we propose a new zero-shot proxy, ZiCo, the first proxy that works consistently better than #Params. We demonstrate that ZiCo works better than State-Of-The-Art (SOTA) proxies on several popular NAS-Benchmarks (NASBench101, NATSBench-SSS/TSS, TransNASBench-101) for multiple applications (e.g., image classification/reconstruction and pixel-level prediction). Finally, we demonstrate that the optimal architectures found via ZiCo are as competitive as the ones found by one-shot and multi-shot NAS methods, but with much less search time. For example, ZiCo-based NAS can find optimal architectures with 78.1%, 79.4%, and 80.4% test accuracy under inference budgets of 450M, 600M, and 1000M FLOPs, respectively, on ImageNet within 0.4 GPU days. Our code is available at https://github.com/SLDGroup/ZiCo.

arxiv情報

著者 Guihong Li,Yuedong Yang,Kartikeya Bhardwaj,Radu Marculescu
発行日 2023-04-12 22:45:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク