DNA Family: Boosting Weight-Sharing NAS with Block-Wise Supervisions

要約

ニューラル・アーキテクチャ探索(NAS)は、機械によるニューラル・アーキテクチャの自動設計を目指すもので、自動機械学習への重要な一歩と考えられてきた。注目すべきNASの分岐の1つに重み共有NASがあり、これは探索効率を大幅に向上させ、NASアルゴリズムを通常のコンピュータ上で実行することを可能にする。大きな期待を受けているにもかかわらず、このカテゴリーの手法は低い探索効果に悩まされている。汎化境界性ツールを用いることにより、この欠点の背後にある悪魔は、可能なアーキテクチャの探索空間が過大であることによる、信頼できないアーキテクチャの評価であることを示す。この問題に対処するため、我々は、大きな探索空間を小さな探索空間を持つブロックにモジュール化し、DNA(distilling neural architecture)技術を用いたモデルファミリーを開発する。これらの提案モデル、すなわちDNAファミリーは、スケーラビリティ、効率性、マルチモーダル互換性など、ウェイトシェアリングNASの複数のジレンマを解決することができる。ヒューリスティックアルゴリズムを用いて部分的な探索空間にアクセスすることしかできない従来の研究とは対照的に、提案するDNAモデルは全てのアーキテクチャ候補を評価することができる。さらに、ある計算量の制約の下で、我々の手法は、異なる深さと幅を持つアーキテクチャを探索することができる。広範な実験的評価により、我々のモデルはImageNetにおいて、モバイル畳み込みネットワークと小型ビジョン変換器に対して、それぞれ78.9%と83.6%という最先端のトップ1精度を達成した。さらに、詳細な経験的分析とニューラルアーキテクチャの評価に関する洞察を提供する。コードあり:\https://github.com/changlin31/DNA}。

要約(オリジナル)

Neural Architecture Search (NAS), aiming at automatically designing neural architectures by machines, has been considered a key step toward automatic machine learning. One notable NAS branch is the weight-sharing NAS, which significantly improves search efficiency and allows NAS algorithms to run on ordinary computers. Despite receiving high expectations, this category of methods suffers from low search effectiveness. By employing a generalization boundedness tool, we demonstrate that the devil behind this drawback is the untrustworthy architecture rating with the oversized search space of the possible architectures. Addressing this problem, we modularize a large search space into blocks with small search spaces and develop a family of models with the distilling neural architecture (DNA) techniques. These proposed models, namely a DNA family, are capable of resolving multiple dilemmas of the weight-sharing NAS, such as scalability, efficiency, and multi-modal compatibility. Our proposed DNA models can rate all architecture candidates, as opposed to previous works that can only access a sub- search space using heuristic algorithms. Moreover, under a certain computational complexity constraint, our method can seek architectures with different depths and widths. Extensive experimental evaluations show that our models achieve state-of-the-art top-1 accuracy of 78.9% and 83.6% on ImageNet for a mobile convolutional network and a small vision transformer, respectively. Additionally, we provide in-depth empirical analysis and insights into neural architecture ratings. Codes available: \url{https://github.com/changlin31/DNA}.

arxiv情報

著者 Guangrun Wang,Changlin Li,Liuchun Yuan,Jiefeng Peng,Xiaoyu Xian,Xiaodan Liang,Xiaojun Chang,Liang Lin
発行日 2024-03-02 22:16:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク