要約
このホワイトペーパーでは、リアルタイムアプリケーション向けに視覚言語モデル(VLMS)を最適化するための新しいアプローチであるFlash-VL 2Bを紹介し、精度を犠牲にすることなく超低レイテンシと高スループットをターゲットにしています。
高度なアーキテクチャの強化と効率的な計算戦略を活用するFlash-VL 2Bは、複数のビジョン言語ベンチマークにわたって競争力のあるパフォーマンスを維持しながら、処理時間を短縮することによりスループットを最大化するように設計されています。
私たちのアプローチには、テーラードアーキテクチャの選択、トークン圧縮メカニズム、データキュレーション、トレーニングスキーム、および計算負荷とモデルのパフォーマンスを効果的にバランスさせる暗黙のセマンティックステッチと呼ばれる新しい画像処理手法が含まれます。
11の標準VLMベンチマークに関する広範な評価を通じて、Flash-VL 2Bが速度と精度の両方で最先端の結果を達成し、リソースが制約されている環境と大規模なリアルタイムアプリケーションでの展開の有望なソリューションにすることを実証します。
要約(オリジナル)
In this paper, we introduce Flash-VL 2B, a novel approach to optimizing Vision-Language Models (VLMs) for real-time applications, targeting ultra-low latency and high throughput without sacrificing accuracy. Leveraging advanced architectural enhancements and efficient computational strategies, Flash-VL 2B is designed to maximize throughput by reducing processing time while maintaining competitive performance across multiple vision-language benchmarks. Our approach includes tailored architectural choices, token compression mechanisms, data curation, training schemes, and a novel image processing technique called implicit semantic stitching that effectively balances computational load and model performance. Through extensive evaluations on 11 standard VLM benchmarks, we demonstrate that Flash-VL 2B achieves state-of-the-art results in both speed and accuracy, making it a promising solution for deployment in resource-constrained environments and large-scale real-time applications.
arxiv情報
著者 | Bo Zhang,Shuo Li,Runhe Tian,Yang Yang,Jixin Tang,Jinhao Zhou,Lin Ma |
発行日 | 2025-05-14 15:45:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google