要約
微分可能なニューラル アーキテクチャ検索 (DARTS) は、ニューラル アーキテクチャ検索 (NAS) の一般的な方法であり、セル検索を実行し、連続緩和を利用して勾配ベースの最適化によって検索効率を向上させます。
DARTS の主な欠点はパフォーマンスの低下であり、発見されたアーキテクチャは検索中に品質が低下するパターンに悩まされます。
パフォーマンスの低下は研究の重要なトピックとなり、多くの方法が DARTS の正規化または根本的な変更によって問題を解決しようとしています。
ただし、DARTS でのセル検索に使用される重み共有フレームワークとアーキテクチャ パラメータの収束はまだ分析されていません。
この論文では、DARTS とその収束点に関する徹底的かつ斬新な理論的および経験的分析を提供します。
ダーツは、ダーツのソフトマックス関数の飽和点への収束を制限する重み共有フレームワークに起因する特定の構造上の欠陥に苦しんでいることを示しています。
この収束点は、最適なアーキテクチャを選択する際に出力に近い層に不当な優位性を与え、パフォーマンスの低下を引き起こします。
次に、レイヤーの勾配を調整して操作の選択を調和させることにより、パフォーマンスの低下を防ぐことを目的とした2つの新しい正則化用語を提案します。
6 つの異なる検索空間と 3 つの異なるデータセットでの実験結果は、私たちの方法 ($\Lambda$-DARTS) が実際にパフォーマンスの低下を防ぎ、理論的分析と提案された解決策を正当化することを示しています。
要約(オリジナル)
Differentiable neural architecture search (DARTS) is a popular method for neural architecture search (NAS), which performs cell-search and utilizes continuous relaxation to improve the search efficiency via gradient-based optimization. The main shortcoming of DARTS is performance collapse, where the discovered architecture suffers from a pattern of declining quality during search. Performance collapse has become an important topic of research, with many methods trying to solve the issue through either regularization or fundamental changes to DARTS. However, the weight-sharing framework used for cell-search in DARTS and the convergence of architecture parameters has not been analyzed yet. In this paper, we provide a thorough and novel theoretical and empirical analysis on DARTS and its point of convergence. We show that DARTS suffers from a specific structural flaw due to its weight-sharing framework that limits the convergence of DARTS to saturation points of the softmax function. This point of convergence gives an unfair advantage to layers closer to the output in choosing the optimal architecture, causing performance collapse. We then propose two new regularization terms that aim to prevent performance collapse by harmonizing operation selection via aligning gradients of layers. Experimental results on six different search spaces and three different datasets show that our method ($\Lambda$-DARTS) does indeed prevent performance collapse, providing justification for our theoretical analysis and the proposed remedy.
arxiv情報
著者 | Sajad Movahedi,Melika Adabinejad,Ayyoob Imani,Arezou Keshavarz,Mostafa Dehghani,Azadeh Shakery,Babak N. Araabi |
発行日 | 2022-10-14 17:54:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google