CoMP: Continual Multimodal Pre-training for Vision Foundation Models

要約

事前に訓練されたVision Foundationモデル(VFM)は、幅広いアプリケーションに対して強力な視覚表現を提供します。
このホワイトペーパーでは、マルチモーダルな方法で継続的に訓練するVFMを継続的に事前に訓練し、さまざまなサイズの視覚入力を簡単に処理し、元のトレーニングプロセスに関係なく言語表現とより整合する視覚表現を生成できます。
この目的のために、慎重に設計されたマルチモーダルプリトレーニングパイプラインであるCompを紹介します。
COMPは、継続的な回転位置埋め込みを使用して、さまざまな解像度で視覚入力に対応し、視覚的な機能とテキスト機能の間のアライメント損失を適切に整列させ、より良いクロスモーダルアライメントに対応させます。
継続的なトレーニング前に、DinoV2、Siglip、AIMV2などの主要なVFMは、マルチモーダル理解タスクだけでなく、一般的な分類とセグメンテーションタスクにおいても顕著な改善を実現します。
驚くべきことに、Comp-Aimv2は0.5B LLMでChartqaで64.9のスコアを達成し、凍結チャンク評価下でImagenet-1Kで87.3%の精度とADE20Kで51.8 MIOUを維持します。

要約(オリジナル)

Pre-trained Vision Foundation Models (VFMs) provide strong visual representations for a wide range of applications. In this paper, we continually pre-train prevailing VFMs in a multimodal manner such that they can effortlessly process visual inputs of varying sizes and produce visual representations that are more aligned with language representations, regardless of their original pre-training process. To this end, we introduce CoMP, a carefully designed multimodal pre-training pipeline. CoMP uses a Continual Rotary Position Embedding to accommodate visual inputs with different resolutions, and an Alignment Loss between visual and textual features for better cross-modal alignment. After continual pre-training, leading VFMs like DINOv2, SigLIP and AIMv2 achieve remarkable improvements not only in multimodal understanding tasks but also in generic classification and segmentation tasks. Remarkably, CoMP-AIMv2 achieves scores of 64.9 on ChartQA with a 0.5B LLM, while maintaining an 87.3% accuracy on ImageNet-1K and a 51.8 mIoU on ADE20K under frozen chunk evaluation.

arxiv情報

著者 Yitong Chen,Lingchen Meng,Wujian Peng,Zuxuan Wu,Yu-Gang Jiang
発行日 2025-05-16 17:36:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク