Self-Adapting Large Visual-Language Models to Edge Devices across Visual Modalities

要約

ビジョン言語 (VL) モデルの最近の進歩により、エッジ デバイスへの展開への関心が高まっていますが、多様な視覚モダリティ、手動注釈、および計算上の制約を処理する際の課題は依然として残っています。
EdgeVL は、デュアルモダリティの知識の蒸留と量子化を意識した対照学習をシームレスに統合することで、このギャップを埋める新しいフレームワークです。
このアプローチにより、手動の注釈を必要とせずに、リソースが限られたデバイス上で RGB イメージと非 RGB イメージの両方を効率的に使用できるように、CLIP などの大規模な VL モデルを適応させることができます。
EdgeVL は、視覚言語のアライメント機能をコンパクトなモデルに移すだけでなく、量子化後の特徴の品質も維持し、さまざまな視覚モダリティ全体でオープン語彙の分類パフォーマンスを大幅に向上させます。
私たちの研究は、大規模な VL モデルをエッジ展開に適応させるための最初の体系的な取り組みであり、複数のデータセットで最大 15.4% の精度向上とモデル サイズの最大 93 倍の削減を示しています。

要約(オリジナル)

Recent advancements in Vision-Language (VL) models have sparked interest in their deployment on edge devices, yet challenges in handling diverse visual modalities, manual annotation, and computational constraints remain. We introduce EdgeVL, a novel framework that bridges this gap by seamlessly integrating dual-modality knowledge distillation and quantization-aware contrastive learning. This approach enables the adaptation of large VL models, like CLIP, for efficient use with both RGB and non-RGB images on resource-limited devices without the need for manual annotations. EdgeVL not only transfers visual language alignment capabilities to compact models but also maintains feature quality post-quantization, significantly enhancing open-vocabulary classification performance across various visual modalities. Our work represents the first systematic effort to adapt large VL models for edge deployment, showcasing up to 15.4% accuracy improvements on multiple datasets and up to 93-fold reduction in model size.

arxiv情報

著者 Kaiwen Cai,Zhekai Duan,Gaowen Liu,Charles Fleming,Chris Xiaoxuan Lu
発行日 2024-10-01 14:22:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク