要約
Clip(Contrastive Language-Image Pretraining)などの基礎モデルは、クロスモーダルアライメントを通じてゼロショットと少ないショットの学習を可能にすることにより、ビジョン言語タスクに革命をもたらしました。
ただし、計算の複雑さと大規模なメモリフットプリントにより、画像収集やリアルタイム処理に使用される車内カメラなど、リソース制約のあるエッジデバイスへの展開には不適切です。
この課題に対処するために、Edgeデバイスでのリアルタイムの画像ラベル付けを可能にする効率的なモデル蒸留フレームワークであるClip4retrofitを提案します。
このフレームワークは、コンピューティングパフォーマンスとメモリに厳密な制限にもかかわらず、数千台の車両に改装された費用対効果の高いエッジデバイスであるレトロフィットカメラに展開されます。
私たちのアプローチは、CLIPモデルの知識を軽量の学生モデルに蒸留し、EfficientNet-B3と多層Perceptron(MLP)プロジェクションヘッドを組み合わせて、クロスモーダルアラインメントを維持しながら、計算要件を大幅に削減します。
蒸留モデルが効率とパフォーマンスのバランスをとっており、実際のシナリオでの展開に理想的であることを実証しています。
実験結果は、Clip4retrofitが限られたリソースを備えたエッジデバイスでリアルタイムの画像ラベル付けとオブジェクト識別を実行できることを示しており、既存のシステムを自律的な運転や改造などのアプリケーションに実用的なソリューションを提供します。
この作業は、最先端のビジョン言語モデルとリソースに制約のある環境での展開との間のギャップを橋渡しし、エッジコンピューティングにおける基礎モデルのより広範な採用への道を開いています。
要約(オリジナル)
Foundation models like CLIP (Contrastive Language-Image Pretraining) have revolutionized vision-language tasks by enabling zero-shot and few-shot learning through cross-modal alignment. However, their computational complexity and large memory footprint make them unsuitable for deployment on resource-constrained edge devices, such as in-car cameras used for image collection and real-time processing. To address this challenge, we propose Clip4Retrofit, an efficient model distillation framework that enables real-time image labeling on edge devices. The framework is deployed on the Retrofit camera, a cost-effective edge device retrofitted into thousands of vehicles, despite strict limitations on compute performance and memory. Our approach distills the knowledge of the CLIP model into a lightweight student model, combining EfficientNet-B3 with multi-layer perceptron (MLP) projection heads to preserve cross-modal alignment while significantly reducing computational requirements. We demonstrate that our distilled model achieves a balance between efficiency and performance, making it ideal for deployment in real-world scenarios. Experimental results show that Clip4Retrofit can perform real-time image labeling and object identification on edge devices with limited resources, offering a practical solution for applications such as autonomous driving and retrofitting existing systems. This work bridges the gap between state-of-the-art vision-language models and their deployment in resource-constrained environments, paving the way for broader adoption of foundation models in edge computing.
arxiv情報
著者 | Li Zhong,Ahmed Ghazal,Jun-Jun Wan,Frederik Zilly,Patrick Mackens,Joachim E. Vollrath,Bogdan Sorin Coseriu |
発行日 | 2025-05-23 15:42:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google