要約
知識蒸留(KD)は、大規模なモデルをより小さなモデルに圧縮するためのデファクトスタンダードである。先行研究では、様々な目的関数、教師アンサンブル、重み継承を含む、より複雑なKD戦略を探求してきた。この研究では、対照的なマルチモーダルプリトレーニングのための効果的な蒸留としての能動的データキュレーション(active data curation)という、代替の、まだ単純なアプローチを探求する。我々の単純なオンラインバッチ選択法ACIDは、様々なモデル、データ、計算機構成において、強力なKDベースラインを凌駕する。さらに、このような能動的なデータキュレーション戦略は、実際には標準的なKDと補完的であり、高性能な推論効率の良いモデルを学習するために効果的に組み合わせることができる。我々のシンプルでスケーラブルな事前学習フレームワークであるACEDは、27のゼロショット分類と検索タスクにおいて、推論FLOPsを最大11%削減し、最先端の結果を達成した。さらに、我々のACEDモデルは、LiT-Decoder設定において、生成的マルチモーダルモデルを訓練するための強力なビジョンエンコーダをもたらし、画像キャプションや視覚的質問応答タスクにおいて、より大きなビジョンエンコーダを凌駕することを実証する。
要約(オリジナル)
Knowledge distillation (KD) is the de facto standard for compressing large-scale models into smaller ones. Prior works have explored ever more complex KD strategies involving different objective functions, teacher-ensembles, and weight inheritance. In this work we explore an alternative, yet simple approach — active data curation as effective distillation for contrastive multimodal pretraining. Our simple online batch selection method, ACID, outperforms strong KD baselines across various model-, data- and compute-configurations. Further, we find such an active data curation strategy to in fact be complementary to standard KD, and can be effectively combined to train highly performant inference-efficient models. Our simple and scalable pretraining framework, ACED, achieves state-of-the-art results across 27 zero-shot classification and retrieval tasks with upto 11% less inference FLOPs. We further demonstrate that our ACED models yield strong vision-encoders for training generative multimodal models in the LiT-Decoder setting, outperforming larger vision encoders for image-captioning and visual question-answering tasks.
arxiv情報
著者 | Vishaal Udandarao,Nikhil Parthasarathy,Muhammad Ferjad Naeem,Talfan Evans,Samuel Albanie,Federico Tombari,Yongqin Xian,Alessio Tonioni,Olivier J. Hénaff |
発行日 | 2025-05-05 14:25:01+00:00 |
arxivサイト | arxiv_id(pdf) |