要約
微分可能アーキテクチャ探索(DARTS)は、シンプルかつ効率的なニューラル・アーキテクチャ探索(NAS)手法である。探索段階において、DARTSはアーキテクチャパラメータとネットワークパラメータを共同で最適化することにより、スーパーネットを学習します。評価段階では、DARTSはスーパーネットを離散化し、アーキテクチャパラメータに基づいて最適なアーキテクチャを導出します。しかし、最近の研究により、学習プロセスにおいて、スーパーネットはフラットな極小値ではなく、シャープな極小値に収束する傾向があることが示されています。これは、スーパーネットの損失ランドスケープの鋭さの高さによって証明され、最終的にスーパーネットと最適アーキテクチャの間に性能ギャップをもたらす。本論文では、この離散化ギャップを緩和するために、自己蒸留微分可能ニューラルアーキテクチャ探索(SD-DARTS)を提案する。自己蒸留を利用して、スーパーネットの以前のステップから知識を抽出し、現在のステップでの学習を導くことで、スーパーネットの損失の鋭さを効果的に低減し、スーパーネットと最適アーキテクチャの性能ギャップを埋める。さらに、複数の過去のスーパーネットが教師として選択され、それらの出力確率が投票によって集約され、最終的な教師予測が得られる。実際のデータセットを用いた実験結果は、最先端の代替手法と比較して、我々の新しい自己蒸留に基づくNAS手法の利点を実証している。
要約(オリジナル)
Differentiable Architecture Search (DARTS) is a simple yet efficient Neural Architecture Search (NAS) method. During the search stage, DARTS trains a supernet by jointly optimizing architecture parameters and network parameters. During the evaluation stage, DARTS discretizes the supernet to derive the optimal architecture based on architecture parameters. However, recent research has shown that during the training process, the supernet tends to converge towards sharp minima rather than flat minima. This is evidenced by the higher sharpness of the loss landscape of the supernet, which ultimately leads to a performance gap between the supernet and the optimal architecture. In this paper, we propose Self-Distillation Differentiable Neural Architecture Search (SD-DARTS) to alleviate the discretization gap. We utilize self-distillation to distill knowledge from previous steps of the supernet to guide its training in the current step, effectively reducing the sharpness of the supernet’s loss and bridging the performance gap between the supernet and the optimal architecture. Furthermore, we introduce the concept of voting teachers, where multiple previous supernets are selected as teachers, and their output probabilities are aggregated through voting to obtain the final teacher prediction. Experimental results on real datasets demonstrate the advantages of our novel self-distillation-based NAS method compared to state-of-the-art alternatives.
arxiv情報
著者 | Xunyu Zhu,Jian Li,Yong Liu,Weiping Wang |
発行日 | 2023-09-01 07:09:55+00:00 |
arxivサイト | arxiv_id(pdf) |