CogVLM2: Visual Language Models for Image and Video Understanding

要約

VisualGLM と CogVLM を皮切りに、視覚と言語の融合の強化、効率的な高解像度アーキテクチャ、より幅広いモダリティとアプリケーションを追求して、VLM を継続的に探索しています。
ここでは、CogVLM2、CogVLM2-Video、GLM-4V を含む、画像とビデオを理解するための新世代の視覚言語モデルである CogVLM2 ファミリーを提案します。
画像理解モデルとして、CogVLM2 はビジュアル エキスパート アーキテクチャを継承し、トレーニング前とトレーニング後の両方の段階でトレーニング レシピが改善され、最大 $1344 \times 1344$ ピクセルの入力解像度をサポートします。
ビデオ理解モデルとして、CogVLM2-Video はマルチフレーム入力をタイムスタンプと統合し、自動化された時間的グラウンディング データ構築を提案します。
特に、CogVLM2 ファミリは、MMBench、MM-Vet、TextVQA、MVBench、VCGBench などのベンチマークで最先端の結果を達成しています。
すべてのモデルは https://github.com/THUDM/CogVLM2 および https://github.com/THUDM/GLM-4 でオープンソース化されており、この分野の進歩に貢献しています。

要約(オリジナル)

Beginning with VisualGLM and CogVLM, we are continuously exploring VLMs in pursuit of enhanced vision-language fusion, efficient higher-resolution architecture, and broader modalities and applications. Here we propose the CogVLM2 family, a new generation of visual language models for image and video understanding including CogVLM2, CogVLM2-Video and GLM-4V. As an image understanding model, CogVLM2 inherits the visual expert architecture with improved training recipes in both pre-training and post-training stages, supporting input resolution up to $1344 \times 1344$ pixels. As a video understanding model, CogVLM2-Video integrates multi-frame input with timestamps and proposes automated temporal grounding data construction. Notably, CogVLM2 family has achieved state-of-the-art results on benchmarks like MMBench, MM-Vet, TextVQA, MVBench and VCGBench. All models are open-sourced in https://github.com/THUDM/CogVLM2 and https://github.com/THUDM/GLM-4, contributing to the advancement of the field.

arxiv情報

著者 Wenyi Hong,Weihan Wang,Ming Ding,Wenmeng Yu,Qingsong Lv,Yan Wang,Yean Cheng,Shiyu Huang,Junhui Ji,Zhao Xue,Lei Zhao,Zhuoyi Yang,Xiaotao Gu,Xiaohan Zhang,Guanyu Feng,Da Yin,Zihan Wang,Ji Qi,Xixuan Song,Peng Zhang,Debing Liu,Bin Xu,Juanzi Li,Yuxiao Dong,Jie Tang
発行日 2024-08-29 12:59:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク