要約
VisualGLM と CogVLM を皮切りに、視覚と言語の融合の強化、効率的な高解像度アーキテクチャ、より幅広いモダリティとアプリケーションを追求して、VLM を継続的に探索しています。
ここでは、CogVLM2、CogVLM2-Video、GLM-4V を含む、画像とビデオを理解するための新世代の視覚言語モデルである CogVLM2 ファミリーを提案します。
画像理解モデルとして、CogVLM2 はビジュアル エキスパート アーキテクチャを継承し、トレーニング前とトレーニング後の両方の段階でトレーニング レシピが改善され、最大 $1344 \times 1344$ ピクセルの入力解像度をサポートします。
ビデオ理解モデルとして、CogVLM2-Video はマルチフレーム入力をタイムスタンプと統合し、自動化された時間的グラウンディング データ構築を提案します。
特に、CogVLM2 ファミリは、MMBench、MM-Vet、TextVQA、MVBench、VCGBench などのベンチマークで最先端の結果を達成しています。
すべてのモデルは https://github.com/THUDM/CogVLM2 および https://github.com/THUDM/GLM-4 でオープンソース化されており、この分野の進歩に貢献しています。
要約(オリジナル)
Beginning with VisualGLM and CogVLM, we are continuously exploring VLMs in pursuit of enhanced vision-language fusion, efficient higher-resolution architecture, and broader modalities and applications. Here we propose the CogVLM2 family, a new generation of visual language models for image and video understanding including CogVLM2, CogVLM2-Video and GLM-4V. As an image understanding model, CogVLM2 inherits the visual expert architecture with improved training recipes in both pre-training and post-training stages, supporting input resolution up to $1344 \times 1344$ pixels. As a video understanding model, CogVLM2-Video integrates multi-frame input with timestamps and proposes automated temporal grounding data construction. Notably, CogVLM2 family has achieved state-of-the-art results on benchmarks like MMBench, MM-Vet, TextVQA, MVBench and VCGBench. All models are open-sourced in https://github.com/THUDM/CogVLM2 and https://github.com/THUDM/GLM-4, contributing to the advancement of the field.
arxiv情報
著者 | Wenyi Hong,Weihan Wang,Ming Ding,Wenmeng Yu,Qingsong Lv,Yan Wang,Yean Cheng,Shiyu Huang,Junhui Ji,Zhao Xue,Lei Zhao,Zhuoyi Yang,Xiaotao Gu,Xiaohan Zhang,Guanyu Feng,Da Yin,Zihan Wang,Ji Qi,Xixuan Song,Peng Zhang,Debing Liu,Bin Xu,Juanzi Li,Yuxiao Dong,Jie Tang |
発行日 | 2024-08-29 12:59:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google