要約
高度なマルチモーダル推論、長いコンテキストの理解、強力なエージェント機能を提供する効率的なオープンソース混合物(MOE)ビジョン言語モデル(VLM)であるKimi-VLを提示します。
Kimi-VLは、挑戦的なドメイン全体で強力なパフォーマンスを示します。一般的な目的のVLMとして、Kimi-VLはマルチターンエージェントタスク(OSWORLDなど)に優れており、フラッグシップモデルと一致します。
さらに、大学レベルの画像とビデオ理解、OCR、数学的推論、マルチイメージの理解など、多様な挑戦的なビジョン言語タスク全体に顕著な能力を示しています。
比較評価では、いくつかの重要なドメインでGPT-4Oを上回りながら、GPT-4O-MINI、QWEN2.5-VL-7B、GEMMA-3-12B-ITなどの最先端の効率的なVLMと効果的に競合しています。
Kimi-VLは、長いコンテキストの処理と明確な知覚にも進みます。
128kの拡張コンテキストウィンドウを使用すると、Kimi-VLは多様な長い入力を処理でき、Mmlongbench-Docで64.5、35.1の印象的なスコアを達成できます。
ネイティブ解像度の視覚エンコーダーであるMoonVitは、さらに超高解像度の視覚入力を見て理解することができ、InfoVQAで83.2、Screenspot-Proで34.5を達成し、一般的なタスクの計算コストを維持します。
Kimi-Vlに基づいて、高度な長期にわたる変化のバリアント、Kimi-Vl考えを紹介します。
長い考え方(COT)の監視された微調整(SFT)および強化学習(RL)を通じて開発されたこのモデルは、強力な長期推論能力を示しています。
MMMUで61.7、MathVisionで36.8、Mathvistaで71.3のスコアを達成し、Compact 2.8B活性化LLMパラメーターを維持し、効率的なマルチモーダル思考モデルの新しい標準を設定します。
コードとモデルは、https://github.com/moonshotai/kimi-vlで公開されています。
要約(オリジナル)
We present Kimi-VL, an efficient open-source Mixture-of-Experts (MoE) vision-language model (VLM) that offers advanced multimodal reasoning, long-context understanding, and strong agent capabilities – all while activating only 2.8B parameters in its language decoder (Kimi-VL-A3B). Kimi-VL demonstrates strong performance across challenging domains: as a general-purpose VLM, Kimi-VL excels in multi-turn agent tasks (e.g., OSWorld), matching flagship models. Furthermore, it exhibits remarkable capabilities across diverse challenging vision language tasks, including college-level image and video comprehension, OCR, mathematical reasoning, and multi-image understanding. In comparative evaluations, it effectively competes with cutting-edge efficient VLMs such as GPT-4o-mini, Qwen2.5-VL-7B, and Gemma-3-12B-IT, while surpassing GPT-4o in several key domains. Kimi-VL also advances in processing long contexts and perceiving clearly. With a 128K extended context window, Kimi-VL can process diverse long inputs, achieving impressive scores of 64.5 on LongVideoBench and 35.1 on MMLongBench-Doc. Its native-resolution vision encoder, MoonViT, further allows it to see and understand ultra-high-resolution visual inputs, achieving 83.2 on InfoVQA and 34.5 on ScreenSpot-Pro, while maintaining lower computational cost for common tasks. Building upon Kimi-VL, we introduce an advanced long-thinking variant: Kimi-VL-Thinking. Developed through long chain-of-thought (CoT) supervised fine-tuning (SFT) and reinforcement learning (RL), this model exhibits strong long-horizon reasoning capabilities. It achieves scores of 61.7 on MMMU, 36.8 on MathVision, and 71.3 on MathVista while maintaining the compact 2.8B activated LLM parameters, setting a new standard for efficient multimodal thinking models. Code and models are publicly accessible at https://github.com/MoonshotAI/Kimi-VL.
arxiv情報
著者 | Kimi Team,Angang Du,Bohong Yin,Bowei Xing,Bowen Qu,Bowen Wang,Cheng Chen,Chenlin Zhang,Chenzhuang Du,Chu Wei,Congcong Wang,Dehao Zhang,Dikang Du,Dongliang Wang,Enming Yuan,Enzhe Lu,Fang Li,Flood Sung,Guangda Wei,Guokun Lai,Han Zhu,Hao Ding,Hao Hu,Hao Yang,Hao Zhang,Haoning Wu,Haotian Yao,Haoyu Lu,Heng Wang,Hongcheng Gao,Huabin Zheng,Jiaming Li,Jianlin Su,Jianzhou Wang,Jiaqi Deng,Jiezhong Qiu,Jin Xie,Jinhong Wang,Jingyuan Liu,Junjie Yan,Kun Ouyang,Liang Chen,Lin Sui,Longhui Yu,Mengfan Dong,Mengnan Dong,Nuo Xu,Pengyu Cheng,Qizheng Gu,Runjie Zhou,Shaowei Liu,Sihan Cao,Tao Yu,Tianhui Song,Tongtong Bai,Wei Song,Weiran He,Weixiao Huang,Weixin Xu,Xiaokun Yuan,Xingcheng Yao,Xingzhe Wu,Xinxing Zu,Xinyu Zhou,Xinyuan Wang,Y. Charles,Yan Zhong,Yang Li,Yangyang Hu,Yanru Chen,Yejie Wang,Yibo Liu,Yibo Miao,Yidao Qin,Yimin Chen,Yiping Bao,Yiqin Wang,Yongsheng Kang,Yuanxin Liu,Yulun Du,Yuxin Wu,Yuzhi Wang,Yuzi Yan,Zaida Zhou,Zhaowei Li,Zhejun Jiang,Zheng Zhang,Zhilin Yang,Zhiqi Huang,Zihao Huang,Zijia Zhao,Ziwei Chen,Zongyu Lin |
発行日 | 2025-04-15 17:14:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google