要約
アーキテクチャは、ディープ ニューラル ネットワークのパフォーマンスを決定する際に重要な役割を果たします。
ただし、最適なアーキテクチャの検索は、広大な検索スペースによって妨げられることが多く、時間のかかるプロセスになります。
最近、大規模なトレーニングを必要とせずに理想的なアーキテクチャを発見することを目的とした、トレーニング不要のニューラル アーキテクチャ検索 (NAS) として知られる新しいアプローチが登場しました。
トレーニング不要の NAS は、線形領域の数、サンプルごとの損失の密度、有限幅ニューラル タンジェント カーネル (NTK) マトリックスの安定性などのメトリクスを含む、アーキテクチャの選択にさまざまな指標を活用します。
現在のトレーニング不要の NAS 技術は経験的に優れたパフォーマンスを示していますが、一貫性のないパフォーマンスや深い理解の欠如など、特定の制限に悩まされています。
このペーパーでは、トレーニングを必要とせずにモデルのパフォーマンスを推論するために設計されたシンプルかつ効果的な方法である GradAlign を紹介します。
GradAlign は、その中核として、初期化中のサンプルごとの勾配内の競合の程度を定量化します。これは、実質的な競合がモデルの収束を妨げ、最終的にパフォーマンスの低下につながるためです。
標準的な NAS ベンチマークを使用して、確立されたトレーニング不要の NAS 手法に対して GradAlign を評価し、全体的なパフォーマンスが優れていることを示しています。
さらに、広く採用されている線形領域数の測定基準は、初期化時にネットワーク アーキテクチャを選択するための信頼できる基準としては十分ではない可能性があることを示します。
要約(オリジナル)
Architecture plays an important role in deciding the performance of deep neural networks. However, the search for the optimal architecture is often hindered by the vast search space, making it a time-intensive process. Recently, a novel approach known as training-free neural architecture search (NAS) has emerged, aiming to discover the ideal architecture without necessitating extensive training. Training-free NAS leverages various indicators for architecture selection, including metrics such as the count of linear regions, the density of per-sample losses, and the stability of the finite-width Neural Tangent Kernel (NTK) matrix. Despite the competitive empirical performance of current training-free NAS techniques, they suffer from certain limitations, including inconsistent performance and a lack of deep understanding. In this paper, we introduce GradAlign, a simple yet effective method designed for inferring model performance without the need for training. At its core, GradAlign quantifies the extent of conflicts within per-sample gradients during initialization, as substantial conflicts hinder model convergence and ultimately result in worse performance. We evaluate GradAlign against established training-free NAS methods using standard NAS benchmarks, showing a better overall performance. Moreover, we show that the widely adopted metric of linear region count may not suffice as a dependable criterion for selecting network architectures during at initialization.
arxiv情報
著者 | Yuxuan Li,Yunhui Guo |
発行日 | 2024-11-29 16:27:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google