要約
Distillation-aware Neural Architecture Search (DaNAS) は、特定の教師モデルから知識を抽出するときに最高のパフォーマンスや効率が得られる最適な生徒アーキテクチャを検索することを目的としています。
これまでの DaNAS 手法は主に、固定データセットと教師のニューラル アーキテクチャの検索に取り組んでいましたが、目に見えないデータセットと教師からなる新しいタスクではうまく一般化されていないため、新しいデータセットと教師の組み合わせに対してコストのかかる検索を実行する必要があります。
データセットと教師。
KD を使用しない標準的な NAS タスクについては、メタ学習ベースの計算効率の高い NAS 手法が提案されています。これは、複数のタスク (データセット) にわたって一般化された検索プロセスを学習し、それらのタスクを通じて得られた知識を新しいタスクに転送します。
ただし、教師からの KD なしでゼロから学習することを前提としているため、DaNAS シナリオには理想的ではない可能性があります。
DaNAS 手法の過剰な計算コストと高速 NAS 手法の準最適性を排除するために、データセット上の特定のアーキテクチャの最終パフォーマンスを予測できる、蒸留を意識したメタ精度予測モデル DaSS (蒸留を意識した Student Search) を提案します。
特定の教師と KD を実行するとき、ターゲット タスクについて実際にトレーニングする必要はありません。
実験結果は、私たちが提案したメタ予測モデルが、DaNAS タスクの複数の目に見えないデータセットにうまく一般化し、既存のメタ NAS 手法や迅速な NAS ベースラインを大幅に上回るパフォーマンスを示していることを示しています。
コードは https://github.com/CownowAn/DaSS で入手できます。
要約(オリジナル)
Distillation-aware Neural Architecture Search (DaNAS) aims to search for an optimal student architecture that obtains the best performance and/or efficiency when distilling the knowledge from a given teacher model. Previous DaNAS methods have mostly tackled the search for the neural architecture for fixed datasets and the teacher, which are not generalized well on a new task consisting of an unseen dataset and an unseen teacher, thus need to perform a costly search for any new combination of the datasets and the teachers. For standard NAS tasks without KD, meta-learning-based computationally efficient NAS methods have been proposed, which learn the generalized search process over multiple tasks (datasets) and transfer the knowledge obtained over those tasks to a new task. However, since they assume learning from scratch without KD from a teacher, they might not be ideal for DaNAS scenarios. To eliminate the excessive computational cost of DaNAS methods and the sub-optimality of rapid NAS methods, we propose a distillation-aware meta accuracy prediction model, DaSS (Distillation-aware Student Search), which can predict a given architecture’s final performances on a dataset when performing KD with a given teacher, without having actually to train it on the target task. The experimental results demonstrate that our proposed meta-prediction model successfully generalizes to multiple unseen datasets for DaNAS tasks, largely outperforming existing meta-NAS methods and rapid NAS baselines. Code is available at https://github.com/CownowAn/DaSS
arxiv情報
著者 | Hayeon Lee,Sohyun An,Minseon Kim,Sung Ju Hwang |
発行日 | 2023-05-26 14:00:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google