MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training

要約

CLIP などの画像テキスト基礎モデルの対照的な事前トレーニングにより、優れたゼロショット パフォーマンスと、幅広い下流タスクでの堅牢性の向上が実証されました。
ただし、これらのモデルは、メモリとレイテンシのオーバーヘッドが大きく、モバイル デバイスでの展開に課題をもたらす大規模なトランスベースのエンコーダを利用しています。
この研究では、MobileCLIP を紹介します。MobileCLIP は、実行時のパフォーマンスに最適化された効率的な画像テキスト モデルの新しいファミリーであり、新しい効率的なトレーニング アプローチ、つまりマルチモーダル強化トレーニングを備えています。
提案されたトレーニング アプローチは、画像キャプション モデルと強力な CLIP エンコーダーのアンサンブルからの知識伝達を活用して、効率的なモデルの精度を向上させます。
私たちのアプローチでは、追加の知識を強化されたデータセットに保存することで、トレーニング時の計算オーバーヘッドを回避します。
MobileCLIP は、いくつかのデータセットに対するゼロショット分類および取得タスクに対して、新しい最先端のレイテンシと精度のトレードオフを設定します。
当社の MobileCLIP-S2 バリアントは、ViT-B/16 に基づく以前の最高の CLIP モデルと比較して、2.3$\倍$ 高速でありながら、より正確です。
ViT-B/16 画像バックボーンに基づいて CLIP モデルをトレーニングし、以前の最高と比較して 38 の評価ベンチマークで +2.9% の平均パフォーマンス向上を達成することで、マルチモーダル強化トレーニングの有効性をさらに実証します。
さらに、提案されたアプローチは、非強化の CLIP トレーニングと比較して、10$\times$-1000$\times$ の学習効率の向上を達成することを示します。

要約(オリジナル)

Contrastive pretraining of image-text foundation models, such as CLIP, demonstrated excellent zero-shot performance and improved robustness on a wide range of downstream tasks. However, these models utilize large transformer-based encoders with significant memory and latency overhead which pose challenges for deployment on mobile devices. In this work, we introduce MobileCLIP — a new family of efficient image-text models optimized for runtime performance along with a novel and efficient training approach, namely multi-modal reinforced training. The proposed training approach leverages knowledge transfer from an image captioning model and an ensemble of strong CLIP encoders to improve the accuracy of efficient models. Our approach avoids train-time compute overhead by storing the additional knowledge in a reinforced dataset. MobileCLIP sets a new state-of-the-art latency-accuracy tradeoff for zero-shot classification and retrieval tasks on several datasets. Our MobileCLIP-S2 variant is 2.3$\times$ faster while more accurate compared to previous best CLIP model based on ViT-B/16. We further demonstrate the effectiveness of our multi-modal reinforced training by training a CLIP model based on ViT-B/16 image backbone and achieving +2.9% average performance improvement on 38 evaluation benchmarks compared to the previous best. Moreover, we show that the proposed approach achieves 10$\times$-1000$\times$ improved learning efficiency when compared with non-reinforced CLIP training.

arxiv情報

著者 Pavan Kumar Anasosalu Vasu,Hadi Pouransari,Fartash Faghri,Raviteja Vemulapalli,Oncel Tuzel
発行日 2023-11-28 18:55:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク