要約
Vision Large Language Models(VLMS)は、視覚的理解と自然言語処理を組み合わせ、画像キャプション、視覚的な質問への回答、ビデオ分析などのタスクを可能にします。
VLMは、自動運転車、スマートサーベイランス、ヘルスケアなどのドメイン全体で印象的な機能を示していますが、リソース制約のあるエッジデバイスへの展開は、処理能力、メモリ、およびエネルギーの制限により依然として困難です。
この調査では、剪定、量子化、知識蒸留、効率を高める特殊なハードウェアソリューションなど、モデル圧縮技術に焦点を当てたエッジ環境のVLMを最適化する最近の進歩を調査します。
効率的なトレーニングと微調整方法、エッジ展開の課題、プライバシーに関する考慮事項の詳細な議論を提供します。
さらに、ヘルスケア、環境監視、および自律システム全体の軽量VLMの多様なアプリケーションについて説明し、それらの影響の高まりを示しています。
主要な設計戦略、現在の課題、将来の方向性に関する推奨事項を強調することにより、この調査は、VLMSの実際の展開に関するさらなる研究を促すことを目的としており、最終的にはリソース制限設定で高度なAIにアクセスできます。
要約(オリジナル)
Vision Large Language Models (VLMs) combine visual understanding with natural language processing, enabling tasks like image captioning, visual question answering, and video analysis. While VLMs show impressive capabilities across domains such as autonomous vehicles, smart surveillance, and healthcare, their deployment on resource-constrained edge devices remains challenging due to processing power, memory, and energy limitations. This survey explores recent advancements in optimizing VLMs for edge environments, focusing on model compression techniques, including pruning, quantization, knowledge distillation, and specialized hardware solutions that enhance efficiency. We provide a detailed discussion of efficient training and fine-tuning methods, edge deployment challenges, and privacy considerations. Additionally, we discuss the diverse applications of lightweight VLMs across healthcare, environmental monitoring, and autonomous systems, illustrating their growing impact. By highlighting key design strategies, current challenges, and offering recommendations for future directions, this survey aims to inspire further research into the practical deployment of VLMs, ultimately making advanced AI accessible in resource-limited settings.
arxiv情報
著者 | Ahmed Sharshar,Latif U. Khan,Waseem Ullah,Mohsen Guizani |
発行日 | 2025-06-13 12:20:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google