Dynamic Kernel Selection for Improved Generalization and Memory Efficiency in Meta-learning

要約

勾配ベースのメタ学習方法は、メタトレーニングセットに過剰適合する傾向があり、この動作は、大規模で複雑なネットワークでより顕著になります。
さらに、大規模なネットワークでは、低電力エッジデバイスでのメタ学習モデルの適用が制限されます。
小規模なネットワークを選択すると、これらの問題をある程度回避できますが、全体的な一般化に影響を与え、パフォーマンスが低下します。
明らかに、すべてのメタ学習問題に最適なネットワークアーキテクチャのほぼ最適な選択がありますが、事前にそれを特定することは簡単ではありません。
このホワイトペーパーでは、メタ学習で目に見えないタスクを一般化する圧縮CNNモデルを設計するためのタスク固有の動的カーネル選択戦略であるMetaDOCKを紹介します。
私たちの方法は、類似したタスクの特定のセットについて、ネットワークのすべてのカーネルが個々のタスクに必要なわけではないという仮説に基づいています。
むしろ、各タスクはカーネルのごく一部のみを使用し、タスクごとのカーネルの選択は、内部更新ステップの一部として動的に学習できます。
MetaDOCKは、メタモデルとタスク固有の内部モデルを圧縮するため、各タスクのモデルサイズが大幅に削減され、すべてのタスクのアクティブカーネルの数を制限することで、メタ過剰適合の問題が暗黙的に軽減されます。
同じ推論予算で、私たちのアプローチを使用して取得された大規模なCNNモデルの剪定バージョンは、CNNモデルの従来の選択よりも一貫して優れていることを示します。
MetaDOCKは、iMAMLなどの一般的なメタ学習アプローチとうまく連携します。
私たちの方法の有効性は、CIFAR-fsおよびmini-ImageNetデータセットで検証されており、私たちのアプローチでは、モデルのサイズを2%以上削減しながら、標準のメタ学習ベンチマークでモデルの精度を最大2%向上させることができます。
75%。

要約(オリジナル)

Gradient based meta-learning methods are prone to overfit on the meta-training set, and this behaviour is more prominent with large and complex networks. Moreover, large networks restrict the application of meta-learning models on low-power edge devices. While choosing smaller networks avoid these issues to a certain extent, it affects the overall generalization leading to reduced performance. Clearly, there is an approximately optimal choice of network architecture that is best suited for every meta-learning problem, however, identifying it beforehand is not straightforward. In this paper, we present MetaDOCK, a task-specific dynamic kernel selection strategy for designing compressed CNN models that generalize well on unseen tasks in meta-learning. Our method is based on the hypothesis that for a given set of similar tasks, not all kernels of the network are needed by each individual task. Rather, each task uses only a fraction of the kernels, and the selection of the kernels per task can be learnt dynamically as a part of the inner update steps. MetaDOCK compresses the meta-model as well as the task-specific inner models, thus providing significant reduction in model size for each task, and through constraining the number of active kernels for every task, it implicitly mitigates the issue of meta-overfitting. We show that for the same inference budget, pruned versions of large CNN models obtained using our approach consistently outperform the conventional choices of CNN models. MetaDOCK couples well with popular meta-learning approaches such as iMAML. The efficacy of our method is validated on CIFAR-fs and mini-ImageNet datasets, and we have observed that our approach can provide improvements in model accuracy of up to 2% on standard meta-learning benchmark, while reducing the model size by more than 75%.

arxiv情報

著者 Arnav Chavan,Rishabh Tiwari,Udbhav Bamba,Deepak K. Gupta
発行日 2022-06-03 17:09:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク