DLIP: Distilling Language-Image Pre-training

要約

Vision-Language Pre-training (VLP) は、非常に重いパラメータの支援により目覚ましい進歩を示しており、実際のアプリケーションでの展開が困難となっています。
知識の蒸留は、モデル圧縮における必須の手順としてよく知られています。
しかし、既存の知識蒸留技術には VLP の詳細な調査と分析が不足しており、VLP 指向の蒸留の実用的なガイドラインはまだ検討されていません。
この論文では、シンプルかつ効率的な言語と画像の抽出事前トレーニング フレームワークである DLIP を紹介し、これを通じて軽量 VLP モデルを抽出する方法を調査します。
具体的には、さまざまなモジュールのアーキテクチャ特性やさまざまなモダリティの情報伝達など、多次元からモデルの抽出を分析します。
私たちは包括的な実験を実施し、軽量でありながらパフォーマンスの高い VLP モデルの蒸留に関する洞察を提供します。
実験結果から、DLIP は、画像とテキストの検索、画像キャプション、視覚的な質問応答など、さまざまなクロスモーダル タスクにわたって最先端の精度と効率のトレードオフを達成できることが明らかになりました。
たとえば、DLIP は、同等以上のパフォーマンスを達成しながら、BLIP を 213M パラメータから 108M パラメータまで 1.9 倍圧縮します。
さらに、DLIP は教師モデルと比較して 22.4% のパラメーターと 24.8% の FLOP で 95% 以上のパフォーマンスを維持することに成功し、推論速度を 2.7 倍高速化します。

要約(オリジナル)

Vision-Language Pre-training (VLP) shows remarkable progress with the assistance of extremely heavy parameters, which challenges deployment in real applications. Knowledge distillation is well recognized as the essential procedure in model compression. However, existing knowledge distillation techniques lack an in-depth investigation and analysis of VLP, and practical guidelines for VLP-oriented distillation are still not yet explored. In this paper, we present DLIP, a simple yet efficient Distilling Language-Image Pre-training framework, through which we investigate how to distill a light VLP model. Specifically, we dissect the model distillation from multiple dimensions, such as the architecture characteristics of different modules and the information transfer of different modalities. We conduct comprehensive experiments and provide insights on distilling a light but performant VLP model. Experimental results reveal that DLIP can achieve a state-of-the-art accuracy/efficiency trade-off across diverse cross-modal tasks, e.g., image-text retrieval, image captioning and visual question answering. For example, DLIP compresses BLIP by 1.9x, from 213M to 108M parameters, while achieving comparable or better performance. Furthermore, DLIP succeeds in retaining more than 95% of the performance with 22.4% parameters and 24.8% FLOPs compared to the teacher model and accelerates inference speed by 2.7x.

arxiv情報

著者 Huafeng Kuang,Jie Wu,Xiawu Zheng,Ming Li,Xuefeng Xiao,Rui Wang,Min Zheng,Rongrong Ji
発行日 2023-08-24 17:50:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク