On Good Practices for Task-Specific Distillation of Large Pretrained Visual Models

要約

大規模な事前トレーニング済み視覚モデルは、さまざまな認識タスクにわたって顕著な一般化を示します。
しかし、実際のアプリケーションでは、多くの場合、特定の問題に合わせたコンパクトなモデルが求められます。
このような目的のために、知識蒸留の変形が考案され、タスク固有のコンパクトなモデル (生徒) が、一般的な事前トレーニングされた大規模なモデル (教師) から学習できるようになりました。
この論文では、最近の事前トレーニング済みモデルの優れた堅牢性と多用途性が、文献で確立されている一般的な手法に疑問を呈し、タスク固有の蒸留のための最適なガイドラインの新しいセットが必要であることを示します。
下流タスクでのサンプル不足に対処するために、安定した拡散に基づく Mixup の変形が標準的なデータ拡張を補完することも示します。
この戦略により、人工的なテキスト プロンプトの必要性がなくなり、汎用モデルの合理化された専用ネットワークへの蒸留が改善されます。

要約(オリジナル)

Large pretrained visual models exhibit remarkable generalization across diverse recognition tasks. Yet, real-world applications often demand compact models tailored to specific problems. Variants of knowledge distillation have been devised for such a purpose, enabling task-specific compact models (the students) to learn from a generic large pretrained one (the teacher). In this paper, we show that the excellent robustness and versatility of recent pretrained models challenge common practices established in the literature, calling for a new set of optimal guidelines for task-specific distillation. To address the lack of samples in downstream tasks, we also show that a variant of Mixup based on stable diffusion complements standard data augmentation. This strategy eliminates the need for engineered text prompts and improves distillation of generic models into streamlined specialized networks.

arxiv情報

著者 Juliette Marrie,Michael Arbel,Julien Mairal,Diane Larlus
発行日 2024-05-07 15:30:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク