Scaling Vision Pre-Training to 4K Resolution

要約

視覚的詳細の高解像度の認識は、毎日のタスクにとって重要です。
ただし、現在の視力は、より大きな画像を処理するための2次コストのため、依然として低解像度(378 x 378ピクセルなど)に限定されています。
ClipスタイルのビジョンをスケーリングするPS3を、ほぼ一定のコストで4K解像度までトレーニング前に導入します。
グローバルな画像表現での対照的な学習の代わりに、PS3はローカル領域を選択的に処理し、ローカルの詳細なキャプションと対比することにより事前に訓練され、計算オーバーヘッドが大幅に減少して高解像度表現学習を可能にします。
事前に訓練されたPS3は、低解像度でグローバルイメージをエンコードし、テキストプロンプトとの関連性または関連性に基づいてローカル高解像度領域を選択的に処理することができます。
PS3をマルチモーダルLLM(MLLM)に適用する場合、VILA-HDという名前の結果のモデルは、最大4.3倍のトケンを使用しながら、AnysやS^2などの高解像度の視力前トレーニングなしのベースラインと比較して高解像度の視覚的知覚を大幅に改善します。
PS3は、Vila-HDの魅力的なスケーリングプロパティのロックを解除します。これには、解像度を無料でスケーリングし、テスト時間コンピューティングをスケーリングしてパフォーマンスを向上させます。
State of Artsと比較して、Vila-HDは、複数のベンチマークにわたってNVILAやQWEN2-VLなどの以前のMLLMを上回り、最新のトークン剪定アプローチよりも優れた効率を達成します。
最後に、現在のベンチマークは4K解像度の知覚を必要としないことがわかります。これにより、4KPRO、4K分解能の画像QAの新しいベンチマークを提案するように動機付けられています。VILA-HDは、GPT-4Oよりも14.5%の改善、3.2%の改善とQwen2-vlを超える2.96xスピードアップを含む、以前のすべてのMLLMを上回ります。

要約(オリジナル)

High-resolution perception of visual details is crucial for daily tasks. Current vision pre-training, however, is still limited to low resolutions (e.g., 378 x 378 pixels) due to the quadratic cost of processing larger images. We introduce PS3 that scales CLIP-style vision pre-training to 4K resolution with a near-constant cost. Instead of contrastive learning on global image representation, PS3 is pre-trained by selectively processing local regions and contrasting them with local detailed captions, enabling high-resolution representation learning with greatly reduced computational overhead. The pre-trained PS3 is able to both encode the global image at low resolution and selectively process local high-resolution regions based on their saliency or relevance to a text prompt. When applying PS3 to multi-modal LLM (MLLM), the resulting model, named VILA-HD, significantly improves high-resolution visual perception compared to baselines without high-resolution vision pre-training such as AnyRes and S^2 while using up to 4.3x fewer tokens. PS3 also unlocks appealing scaling properties of VILA-HD, including scaling up resolution for free and scaling up test-time compute for better performance. Compared to state of the arts, VILA-HD outperforms previous MLLMs such as NVILA and Qwen2-VL across multiple benchmarks and achieves better efficiency than latest token pruning approaches. Finally, we find current benchmarks do not require 4K-resolution perception, which motivates us to propose 4KPro, a new benchmark of image QA at 4K resolution, on which VILA-HD outperforms all previous MLLMs, including a 14.5% improvement over GPT-4o, and a 3.2% improvement and 2.96x speedup over Qwen2-VL.

arxiv情報

著者 Baifeng Shi,Boyi Li,Han Cai,Yao Lu,Sifei Liu,Marco Pavone,Jan Kautz,Song Han,Trevor Darrell,Pavlo Molchanov,Hongxu Yin
発行日 2025-03-25 17:58:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク