On-Device Domain Generalization

要約

我々は、微小なニューラルネットワークの領域汎化(DG)に関する体系的な研究を紹介する。この問題は、オンデバイス機械学習アプリケーションにとって重要であるが、これまで単に大規模なモデルに焦点を当てた研究が行われてきた文献では見落とされてきた。小さなニューラルネットワークはパラメータが非常に少なく、複雑性も低いため、DGアプリケーションでは大きなニューラルネットワークと同じ方法で学習するべきではありません。私たちは広範な実験を行い、モデル圧縮のためのよく知られた手法である知識蒸留法(KD)が、従来のDG手法よりもオンデバイスDG問題に取り組むのに非常に有効であることを発見しました。また、配信外データにおける教師-生徒間のギャップは配信内データにおけるそれよりも大きいという興味深い観察結果が得られた。これは、KDの欠点と同様に、容量のミスマッチの問題を浮き彫りにするものである。そこで我々は、破壊的データ補強によって合成された分布外データを教師がどのように扱うかを生徒に教える、分布外知識蒸留法(OKD)と呼ばれる方法を提案する。OKDは、画像や音声アプリケーションの様々なオンデバイスデータ収集シナリオにおいて、モデルに余分なパラメータを追加することなく、つまり導入コストを変えることなく、小さなニューラルネットワークのデータ収集性能を大幅に向上させることができます。また、視覚的なドメインシフトを合成するためのスケーラブルなアプローチと、既存のテストベッドを補完するための新しいDGデータセット群も提供します。

要約(オリジナル)

We present a systematic study of domain generalization (DG) for tiny neural networks. This problem is critical to on-device machine learning applications but has been overlooked in the literature where research has been merely focused on large models. Tiny neural networks have much fewer parameters and lower complexity and therefore should not be trained the same way as their large counterparts for DG applications. By conducting extensive experiments, we find that knowledge distillation (KD), a well-known technique for model compression, is much better for tackling the on-device DG problem than conventional DG methods. Another interesting observation is that the teacher-student gap on out-of-distribution data is bigger than that on in-distribution data, which highlights the capacity mismatch issue as well as the shortcoming of KD. We further propose a method called out-of-distribution knowledge distillation (OKD) where the idea is to teach the student how the teacher handles out-of-distribution data synthesized via disruptive data augmentation. Without adding any extra parameter to the model — hence keeping the deployment cost unchanged — OKD significantly improves DG performance for tiny neural networks in a variety of on-device DG scenarios for image and speech applications. We also contribute a scalable approach for synthesizing visual domain shifts, along with a new suite of DG datasets to complement existing testbeds.

arxiv情報

著者 Kaiyang Zhou,Yuanhan Zhang,Yuhang Zang,Jingkang Yang,Chen Change Loy,Ziwei Liu
発行日 2022-11-08 04:32:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク