Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution

要約

Qwen2-VLは、従来のQwen-VLをさらに進化させたモデルであり、従来の視覚処理における決められた解像度のアプローチを再定義する。Qwen2-VLは、ナイーブ・ダイナミック・レゾリューション(Naive Dynamic Resolution)機構を導入し、解像度の異なる画像を異なる視覚トークン数に動的に処理することを可能にします。このアプローチにより、人間の知覚プロセスに近い、より効率的で正確な視覚表現を生成することができます。また、このモデルはマルチモーダルロータリー位置埋め込み(M-RoPE)を統合し、テキスト、画像、動画にまたがる位置情報の効果的な融合を促進する。画像と動画の両方を処理する統一的なパラダイムを採用することで、モデルの視覚認識能力を高めている。大規模マルチモーダルモデルの可能性を探るため、Qwen2-VLは大規模視覚言語モデル(LVLM)のスケーリング則を調査しています。Qwen2-VLシリーズは、モデルサイズ(2B、8B、72Bのパラメータを持つバージョン)と学習データ量の両方をスケーリングすることで、非常に競争力の高い性能を達成しています。特に、Qwen2-VL-72B モデルは、様々なマルチモーダルベンチマークにおいて、GPT-4o や Claude3.5-Sonnet などの主要モデルに匹敵する結果を達成し、他のジェネラリストモデルを凌駕しています。コードは https://github.com/QwenLM/Qwen2-VL で入手可能です。

要約(オリジナル)

We present the Qwen2-VL Series, an advanced upgrade of the previous Qwen-VL models that redefines the conventional predetermined-resolution approach in visual processing. Qwen2-VL introduces the Naive Dynamic Resolution mechanism, which enables the model to dynamically process images of varying resolutions into different numbers of visual tokens. This approach allows the model to generate more efficient and accurate visual representations, closely aligning with human perceptual processes. The model also integrates Multimodal Rotary Position Embedding (M-RoPE), facilitating the effective fusion of positional information across text, images, and videos. We employ a unified paradigm for processing both images and videos, enhancing the model’s visual perception capabilities. To explore the potential of large multimodal models, Qwen2-VL investigates the scaling laws for large vision-language models (LVLMs). By scaling both the model size-with versions at 2B, 8B, and 72B parameters-and the amount of training data, the Qwen2-VL Series achieves highly competitive performance. Notably, the Qwen2-VL-72B model achieves results comparable to leading models such as GPT-4o and Claude3.5-Sonnet across various multimodal benchmarks, outperforming other generalist models. Code is available at https://github.com/QwenLM/Qwen2-VL .

arxiv情報

著者 Peng Wang,Shuai Bai,Sinan Tan,Shijie Wang,Zhihao Fan,Jinze Bai,Keqin Chen,Xuejing Liu,Jialin Wang,Wenbin Ge,Yang Fan,Kai Dang,Mengfei Du,Xuancheng Ren,Rui Men,Dayiheng Liu,Chang Zhou,Jingren Zhou,Junyang Lin
発行日 2024-10-03 15:54:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク