要約
事前トレーニングされたモデルはコモディティとなり、幅広いタスクで強力な結果を提供します。
この研究では、分類に焦点を当て、いくつかの補完的な事前トレーニング済みモデルから取得できる独自のエンコーダーを学習しようとします。
私たちは、さまざまな分類タスクにわたるさらに強力な一般化を目指しています。
私たちは、このようなエンコーダをマルチ教師蒸留によって学習することを提案します。
まず、補完的な強みを備えた複数の強力な教師によって駆動される場合の標準蒸留を徹底的に分析します。
この分析に基づいて、基本的な蒸留設定の改善を徐々に提案します。
その中で、使い捨てプロジェクターのラダーを使用してエンコーダーのアーキテクチャを強化し、蒸留中の中間特徴の影響を増大させます。また、教師の影響のバランスをより良く調整する正則化メカニズムである教師ドロップを導入します。
私たちの最終的な蒸留戦略は、各タスクに最適な教師のパフォーマンスを維持または向上させながら、教師と同じ能力の生徒モデルを導き出します。
プロジェクトページとコード: https://europe.naverlabs.com/unic
要約(オリジナル)
Pretrained models have become a commodity and offer strong results on a broad range of tasks. In this work, we focus on classification and seek to learn a unique encoder able to take from several complementary pretrained models. We aim at even stronger generalization across a variety of classification tasks. We propose to learn such an encoder via multi-teacher distillation. We first thoroughly analyse standard distillation when driven by multiple strong teachers with complementary strengths. Guided by this analysis, we gradually propose improvements to the basic distillation setup. Among those, we enrich the architecture of the encoder with a ladder of expendable projectors, which increases the impact of intermediate features during distillation, and we introduce teacher dropping, a regularization mechanism that better balances the teachers’ influence. Our final distillation strategy leads to student models of the same capacity as any of the teachers, while retaining or improving upon the performance of the best teacher for each task. Project page and code: https://europe.naverlabs.com/unic
arxiv情報
著者 | Mert Bulent Sariyildiz,Philippe Weinzaepfel,Thomas Lucas,Diane Larlus,Yannis Kalantidis |
発行日 | 2024-08-09 14:18:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google