MiniCPM4: Ultra-Efficient LLMs on End Devices

要約

このペーパーでは、エンドサイドデバイス向けに明示的に設計された非常に効率的な大型言語モデル（LLM）であるMinicPM4を紹介します。
私たちは、モデルアーキテクチャ、トレーニングデータ、トレーニングアルゴリズム、および推論システムの4つの重要な側面での体系的なイノベーションを通じて、この効率を達成します。
具体的には、モデルアーキテクチャの観点から、infllm v2を提案します。これは、長いコンテキスト処理のために、浸透率とデコード相の両方を加速するトレーニング可能なまばらな注意メカニズムです。
トレーニングデータに関して、効率的かつ正確なトレーニング前のデータフィルタリングと生成戦略であるUltracleanと、包括的な監視された微調整データセットであるUltrachat V2を提案します。
これらのデータセットにより、わずか8兆トレーニングトークンを使用して満足のいくモデルパフォーマンスを実現できます。
トレーニングアルゴリズムについては、効率的なトレーニング前の戦略検索のためにModelTunnel V2を提案し、負荷分散補強学習とデータ効率の良いテナリーLLM、BITCPMのためにチャンクごとのロールアウトを導入することにより、既存のトレーニング後の方法を改善します。
推論システムに関しては、効率的な摂取とデコードを実現するために、まばらな注意、モデルの量子化、および投機的サンプリングを統合するCPM.CUを提案します。
多様なオンデバイス要件を満たすために、MINICPM4はそれぞれ0.5Bと8Bのパラメーターを備えた2つのバージョンで利用できます。
十分な評価結果は、MINICPM4が複数のベンチマークにわたって同様のサイズのオープンソースモデルを上回ることを示しており、その効率と有効性の両方を強調しています。
特に、MINICPM4-8Bは、長いシーケンスを処理する際にQWEN3-8Bよりも大幅な速度改善を示しています。
さらなる適応を通じて、MINICPM4は、モデルコンテキストプロトコルを使用した信頼できる調査生成とツールの使用を含む多様なアプリケーションのパワーに成功し、その幅広いユーザビリティを明確に示しています。

要約(オリジナル)

This paper introduces MiniCPM4, a highly efficient large language model (LLM) designed explicitly for end-side devices. We achieve this efficiency through systematic innovation in four key dimensions: model architecture, training data, training algorithms, and inference systems. Specifically, in terms of model architecture, we propose InfLLM v2, a trainable sparse attention mechanism that accelerates both prefilling and decoding phases for long-context processing. Regarding training data, we propose UltraClean, an efficient and accurate pre-training data filtering and generation strategy, and UltraChat v2, a comprehensive supervised fine-tuning dataset. These datasets enable satisfactory model performance to be achieved using just 8 trillion training tokens. Regarding training algorithms, we propose ModelTunnel v2 for efficient pre-training strategy search, and improve existing post-training methods by introducing chunk-wise rollout for load-balanced reinforcement learning and data-efficient tenary LLM, BitCPM. Regarding inference systems, we propose CPM.cu that integrates sparse attention, model quantization, and speculative sampling to achieve efficient prefilling and decoding. To meet diverse on-device requirements, MiniCPM4 is available in two versions, with 0.5B and 8B parameters, respectively. Sufficient evaluation results show that MiniCPM4 outperforms open-source models of similar size across multiple benchmarks, highlighting both its efficiency and effectiveness. Notably, MiniCPM4-8B demonstrates significant speed improvements over Qwen3-8B when processing long sequences. Through further adaptation, MiniCPM4 successfully powers diverse applications, including trustworthy survey generation and tool use with model context protocol, clearly showcasing its broad usability.

arxiv情報

著者	MiniCPM Team,Chaojun Xiao,Yuxuan Li,Xu Han,Yuzhuo Bai,Jie Cai,Haotian Chen,Wentong Chen,Xin Cong,Ganqu Cui,Ning Ding,Shengdan Fan,Yewei Fang,Zixuan Fu,Wenyu Guan,Yitong Guan,Junshao Guo,Yufeng Han,Bingxiang He,Yuxiang Huang,Cunliang Kong,Qiuzuo Li,Siyuan Li,Wenhao Li,Yanghao Li,Yishan Li,Zhen Li,Dan Liu,Biyuan Lin,Yankai Lin,Xiang Long,Quanyu Lu,Yaxi Lu,Peiyan Luo,Hongya Lyu,Litu Ou,Yinxu Pan,Zekai Qu,Qundong Shi,Zijun Song,Jiayuan Su,Zhou Su,Ao Sun,Xianghui Sun,Peijun Tang,Fangzheng Wang,Feng Wang,Shuo Wang,Yudong Wang,Yesai Wu,Zhenyu Xiao,Jie Xie,Zihao Xie,Yukun Yan,Jiarui Yuan,Kaihuo Zhang,Lei Zhang,Linyue Zhang,Xueren Zhang,Yudi Zhang,Hengyu Zhao,Weilin Zhao,Weilun Zhao,Yuanqian Zhao,Zhi Zheng,Ge Zhou,Jie Zhou,Wei Zhou,Zihan Zhou,Zixuan Zhou,Zhiyuan Liu,Guoyang Zeng,Chao Jia,Dahai Li,Maosong Sun
発行日	2025-06-09 16:16:50+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

MiniCPM4: Ultra-Efficient LLMs on End Devices

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー