GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

要約

Vision言語モデル(VLM)の最近の進歩により、大規模な言語モデル(LLM)を活用して、GPT-4Vなどのクローズドソースシステムと同等のパフォーマンスを実現しています。
ただし、これらのモデルを実際のシナリオ、特にリソースに制約のあるデバイスに展開することは、実質的な計算需要のために依然として困難です。
これにより、知識を大規模でより効率的な対応物に蒸留することへの関心が高まりました。
ここでは、さまざまなLLM上に構築され、語彙サイズ、トークンスプリット、トークンインデックスの順序付けでさまざまなトークンタイプを使用するVLMアーキテクチャの多様性から、重要な課題が生じます。
特定のVLMタイプへの制限のこの課題に対処するために、VLMSの斬新な汎用蒸留フレームワークである再調整後の生成(Genrecal)を提示します。
GenRecalには、異種VLM間の特徴表現を整列および適応させる再キャリブレーターが組み込まれ、さまざまな種類のVLMにわたって効果的な知識移転が可能になります。
複数の挑戦的なベンチマークでの広範な実験を通じて、GenRecalがベースラインのパフォーマンスを大幅に改善し、最終的に大規模なオープンソースとクローズドソースVLMを上回ることを実証します。

要約(オリジナル)

Recent advancements in vision-language models (VLMs) have leveraged large language models (LLMs) to achieve performance on par with closed-source systems like GPT-4V. However, deploying these models in real-world scenarios, particularly on resource-constrained devices, remains challenging due to their substantial computational demands. This has spurred interest in distilling knowledge from large VLMs into smaller, more efficient counterparts. A key challenge arises here from the diversity of VLM architectures, which are built on different LLMs and employ varying token types-differing in vocabulary size, token splits, and token index ordering. To address this challenge of limitation to a specific VLM type, we present Generation after Recalibration (GenRecal), a novel, general-purpose distillation framework for VLMs. GenRecal incorporates a Recalibrator that aligns and adapts feature representations between heterogeneous VLMs, enabling effective knowledge transfer across different types of VLMs. Through extensive experiments on multiple challenging benchmarks, we demonstrate that GenRecal significantly improves baseline performances, eventually outperforming large-scale open- and closed-source VLMs.

arxiv情報

著者 Byung-Kwan Lee,Ryo Hachiuma,Yong Man Ro,Yu-Chiang Frank Wang,Yueh-Hua Wu
発行日 2025-06-18 17:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク