Reinforcement Pre-Training

要約

この作業では、大規模な言語モデルと強化学習(RL)の新しいスケーリングパラダイムとして、強化前トレーニング(RPT)を導入します。
具体的には、RLを使用してトレーニングされた推論タスクとして次のトークン予測を再構成します。ここでは、特定のコンテキストの次のトークンを正しく予測するための検証可能な報酬を受け取ります。
RPTは、ドメイン固有の注釈付き回答に依存するのではなく、汎用RLの膨大な量のテキストデータを活用するためのスケーラブルな方法を提供します。
次のトークン推論の能力を奨励することにより、RPTは次のトークンを予測する言語モデリングの精度を大幅に向上させます。
さらに、RPTは、さらなる強化微調整のための強力な事前訓練を受けた基盤を提供します。
スケーリング曲線は、トレーニングの増加が一貫して次のトークン予測精度を改善することを示しています。
結果は、言語モデルの事前トレーニングを進めるための効果的で有望なスケーリングパラダイムとしてRPTを位置付けています。

要約(オリジナル)

In this work, we introduce Reinforcement Pre-Training (RPT) as a new scaling paradigm for large language models and reinforcement learning (RL). Specifically, we reframe next-token prediction as a reasoning task trained using RL, where it receives verifiable rewards for correctly predicting the next token for a given context. RPT offers a scalable method to leverage vast amounts of text data for general-purpose RL, rather than relying on domain-specific annotated answers. By incentivizing the capability of next-token reasoning, RPT significantly improves the language modeling accuracy of predicting the next tokens. Moreover, RPT provides a strong pre-trained foundation for further reinforcement fine-tuning. The scaling curves show that increased training compute consistently improves the next-token prediction accuracy. The results position RPT as an effective and promising scaling paradigm to advance language model pre-training.

arxiv情報

著者 Qingxiu Dong,Li Dong,Yao Tang,Tianzhu Ye,Yutao Sun,Zhifang Sui,Furu Wei
発行日 2025-06-09 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Reinforcement Pre-Training はコメントを受け付けていません

PolyVivid: Vivid Multi-Subject Video Generation with Cross-Modal Interaction and Enhancement

要約

最近のビデオ生成の進歩にもかかわらず、既存のモデルは、特に一貫したアイデンティティと相互作用を備えたマルチサブジェクトのカスタマイズのために、まだ細粒の制御可能性を欠いています。
このホワイトペーパーでは、柔軟でアイデンティティ親和的な生成を可能にするマルチサブジェクトビデオカスタマイズフレームワークであるPolyVidiviviviviviviviviviviviviviviviviviviviviviviveを提案します。
サブジェクト画像とテキストエンティティの間に正確な対応を確立するために、正確な接地のために視覚的アイデンティティをテキスト空間に埋め込むVLLMベースのテキストイメージ融合モジュールを設計します。
アイデンティティの保存と被験者の相互作用をさらに強化するために、テキストと画像の埋め込みの間の構造化された双方向融合を可能にする3Dロープベースの拡張モジュールを提案します。
さらに、融合したアイデンティティインジェクションモジュールを開発して、融合したアイデンティティ機能をビデオ生成プロセスに効果的に注入し、アイデンティティドリフトを軽減します。
最後に、MLLMベースの基盤、セグメンテーション、およびクリークベースの主題統合戦略を組み合わせたMLLMベースのデータパイプラインを構築して、高品質のマルチサブジェクトデータを生成し、被験者の区別を効果的に強化し、下流のビデオ生成におけるあいまいさを軽減します。
広範な実験は、Polyvividがアイデンティティの忠実度、ビデオリアリズム、および主題の調整において優れたパフォーマンスを達成し、既存のオープンソースと商業ベースラインを上回ることを示しています。

要約(オリジナル)

Despite recent advances in video generation, existing models still lack fine-grained controllability, especially for multi-subject customization with consistent identity and interaction. In this paper, we propose PolyVivid, a multi-subject video customization framework that enables flexible and identity-consistent generation. To establish accurate correspondences between subject images and textual entities, we design a VLLM-based text-image fusion module that embeds visual identities into the textual space for precise grounding. To further enhance identity preservation and subject interaction, we propose a 3D-RoPE-based enhancement module that enables structured bidirectional fusion between text and image embeddings. Moreover, we develop an attention-inherited identity injection module to effectively inject fused identity features into the video generation process, mitigating identity drift. Finally, we construct an MLLM-based data pipeline that combines MLLM-based grounding, segmentation, and a clique-based subject consolidation strategy to produce high-quality multi-subject data, effectively enhancing subject distinction and reducing ambiguity in downstream video generation. Extensive experiments demonstrate that PolyVivid achieves superior performance in identity fidelity, video realism, and subject alignment, outperforming existing open-source and commercial baselines.

arxiv情報

著者 Teng Hu,Zhentao Yu,Zhengguang Zhou,Jiangning Zhang,Yuan Zhou,Qinglin Lu,Ran Yi
発行日 2025-06-09 15:11:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | PolyVivid: Vivid Multi-Subject Video Generation with Cross-Modal Interaction and Enhancement はコメントを受け付けていません

A Temporal FRBR/FRBRoo-Based Model for Component-Level Versioning of Legal Norms

要約

自動処理の法的規範を効果的に表現することは、特に階層コンポーネント(記事、パラグラフなど)の時横岩の進化を追跡する上で、重大な課題です。
FRBR/FRBROOのような基礎フレームワークや、マクロレベルでのAkoma NTOSOモデルの法的文書のような標準ですが、粒状のコンポーネントレベルのバージョンのネイティブメカニズムがありません。
この制限は、信頼できる法的技術およびAIアプリケーションの基本的な能力である法的テキストの決定論的なポイントインタイム再構成を妨げます。
このペーパーでは、このギャップに対処するためにFRBROOフレームワークを拡張する構造化された時間モデルを提案します。
特定の時点で法的規範とその言語バージョンの状態とその言語変動の状態を表すために、Expressio -Expressioの特殊なサブクラス(TV)と言語バージョン(LV-)を導入します。モデルは、この同じパラダイム階層を導入し、コンポーネントワーク(CW)、コンポーネントの時間バージョン(CTV)、およびCLAPRAMSを使用するコンポーネント言語バージョンを使用します。
ブラジルの連邦憲法は、事例研究として、各修正が影響を受ける条項のために新しいコンポーネントの一時的なバージョンをどのように作成し、既存の既存のアーキテクチャを保持します。
正確な歴史的分析と影響評価が可能で、現在の生成モデルの制限を克服します。

要約(オリジナル)

Effectively representing legal norms for automated processing is a critical challenge, particularly in tracking the diachronic evolution of their hierarchical components (e.g., articles, paragraphs). While foundational frameworks like FRBR/FRBRoo and standards like Akoma Ntoso model legal documents at a macro level, they lack native mechanisms for granular, component-level versioning. This limitation hinders the deterministic point-in-time reconstruction of legal texts, a fundamental capability for reliable Legal Tech and AI applications. This paper proposes a structured, temporal model that extends the FRBRoo framework to address this gap. It introduces specialized subclasses of Expressio – Temporal Version (TV) and Language Version (LV – to represent the state of a legal norm and its linguistic variations at specific points in time. The model applies this same paradigm hierarchically, introducing Component Work (CW), Component Temporal Version (CTV), and Component Language Version (CLV) to track the lifecycle of individual articles, paragraphs, and clauses. Using the Brazilian Federal Constitution as a case study, the paper demonstrates how each amendment creates new Component Temporal Versions for affected provisions, while unaffected components retain their existing versions. This fine-grained, time-aware architecture enables the precise, deterministic retrieval and reconstruction of any part of a legal text as it existed on a specific date. The model provides a robust foundation for developing advanced legal information systems, knowledge graphs, and AI tools capable of accurate historical analysis and impact assessment, overcoming the limitations of current generative models.

arxiv情報

著者 Hudson de Martim
発行日 2025-06-09 15:18:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | A Temporal FRBR/FRBRoo-Based Model for Component-Level Versioning of Legal Norms はコメントを受け付けていません

Residual Reweighted Conformal Prediction for Graph Neural Networks

要約

グラフニューラルネットワーク(GNNS)は、リレーショナルデータのモデリングに優れていますが、定量化されていない不確実性のために、ハイステークスドメインで重要な課題に直面しています。
コンフォーマル予測(CP)は統計的カバレッジ保証を提供しますが、既存の方法は、グラフの不均一性と構造バイアスを説明できない過度に保守的な予測間隔を生成することがよくあります。
残存の再重み付けCPバリアントはこれらの制限のいくつかに対処していますが、トレーニングセットを再利用することにより、グラフトポロジ、クラスター固有の不確実性、およびリスクデータリークを無視します。
これらの問題に対処するために、予定可能な限界カバレッジ保証を備えた最小限の予測セットを生成するように設計されたフレームワークである残留再重弁GNN(RR-GNN)を提案します。
RR-GNNは、予測パフォーマンスを向上させるために3つの主要なイノベーションを導入します。
まず、グラフ構造のMondrian CPを使用して、トポロジー特性に基づいてノードまたはコミュニティにエッジを分割し、不均一性を反映するクラスター条件のカバレッジを確保します。
第二に、タスク固有の残差を推定するために保有キャリブレーションセットで二次GNNをトレーニングし、ノードまたはエッジの不確実性に応じて予測間隔を動的に調整することにより、残留適応性不適合スコアを使用します。
第三に、クロストレーニングプロトコルを採用します。クロストレーニングプロトコルは、グラフの依存関係を維持しながら情報の漏れを防ぐために、一次GNNと残差予測子の最適化を交互に採用します。
ノード分類、回帰、およびエッジ重量予測など、多様なタスク全体で15の実際のグラフでRR-GNNを検証します。
CPベースラインと比較して、RR-GNNは、カバレッジが失われることなく、最先端の方法よりも効率の向上を達成します。

要約(オリジナル)

Graph Neural Networks (GNNs) excel at modeling relational data but face significant challenges in high-stakes domains due to unquantified uncertainty. Conformal prediction (CP) offers statistical coverage guarantees, but existing methods often produce overly conservative prediction intervals that fail to account for graph heteroscedasticity and structural biases. While residual reweighting CP variants address some of these limitations, they neglect graph topology, cluster-specific uncertainties, and risk data leakage by reusing training sets. To address these issues, we propose Residual Reweighted GNN (RR-GNN), a framework designed to generate minimal prediction sets with provable marginal coverage guarantees. RR-GNN introduces three major innovations to enhance prediction performance. First, it employs Graph-Structured Mondrian CP to partition nodes or edges into communities based on topological features, ensuring cluster-conditional coverage that reflects heterogeneity. Second, it uses Residual-Adaptive Nonconformity Scores by training a secondary GNN on a held-out calibration set to estimate task-specific residuals, dynamically adjusting prediction intervals according to node or edge uncertainty. Third, it adopts a Cross-Training Protocol, which alternates the optimization of the primary GNN and the residual predictor to prevent information leakage while maintaining graph dependencies. We validate RR-GNN on 15 real-world graphs across diverse tasks, including node classification, regression, and edge weight prediction. Compared to CP baselines, RR-GNN achieves improved efficiency over state-of-the-art methods, with no loss of coverage.

arxiv情報

著者 Zheng Zhang,Jie Bao,Zhixin Zhou,Nicolo Colombo,Lixin Cheng,Rui Luo
発行日 2025-06-09 15:19:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML | Residual Reweighted Conformal Prediction for Graph Neural Networks はコメントを受け付けていません

LogoSP: Local-global Grouping of Superpoints for Unsupervised Semantic Segmentation of 3D Point Clouds

要約

私たちは、トレーニングで人間のラベルを必要とせずに、生のポイント雲の監視されていない3Dセマンティックセグメンテーションの問題を研究しています。
既存の方法は通常、この問題をポイントごとのローカル機能の学習に定式化し、それに続いて単純なグループ化戦略が続き、ローカル機能を超えた追加の、おそらくより豊かなセマンティックプライアーを発見する能力がありません。
このペーパーでは、Logospを紹介して、ローカルポイントとグローバルの両方のポイント機能から3Dセマンティクスを学習します。
私たちのアプローチの鍵は、周波数ドメインのグローバルパターンに従ってスーパーポイントをグループ化することにより、3Dセマンティック情報を発見することであり、セグメンテーションネットワークをトレーニングするために非常に正確なセマンティックな擬似ラベルを生成します。
2つの屋内データセットと屋外データセットでの広範な実験では、LogOSPが既存のすべての監視されていない方法を大きなマージンで上回り、監視されていない3Dセマンティックセグメンテーションの最先端のパフォーマンスを達成しています。
特に、学んだグローバルパターンの調査は、トレーニング中に人間のラベルがない場合に意味のある3Dセマンティクスを本当に表していることを明らかにしています。

要約(オリジナル)

We study the problem of unsupervised 3D semantic segmentation on raw point clouds without needing human labels in training. Existing methods usually formulate this problem into learning per-point local features followed by a simple grouping strategy, lacking the ability to discover additional and possibly richer semantic priors beyond local features. In this paper, we introduce LogoSP to learn 3D semantics from both local and global point features. The key to our approach is to discover 3D semantic information by grouping superpoints according to their global patterns in the frequency domain, thus generating highly accurate semantic pseudo-labels for training a segmentation network. Extensive experiments on two indoor and an outdoor datasets show that our LogoSP surpasses all existing unsupervised methods by large margins, achieving the state-of-the-art performance for unsupervised 3D semantic segmentation. Notably, our investigation into the learned global patterns reveals that they truly represent meaningful 3D semantics in the absence of human labels during training.

arxiv情報

著者 Zihui Zhang,Weisheng Dai,Hongtao Wen,Bo Yang
発行日 2025-06-09 15:21:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | LogoSP: Local-global Grouping of Superpoints for Unsupervised Semantic Segmentation of 3D Point Clouds はコメントを受け付けていません

Fairness Overfitting in Machine Learning: An Information-Theoretic Perspective

要約

機械学習モデルを使用したハイステークアプリケーションの公平性を促進する際の大幅な進展にもかかわらず、既存の方法は、正統派やその他の介入などのトレーニングプロセスを変更することがよくありますが、トレーニング中に達成された公平性が未見えのデータに一般化されるという正式な保証がありません。
予測のパフォーマンスに関する過剰適合は広範囲に研究されていますが、公平性の損失の点で過剰適合はあまり注目されていません。
このペーパーでは、情報理論レンズを介して公平性一般化エラーを分析するための理論的枠組みを提案します。
私たちの斬新な境界技術は、Efron-Steinの不平等に基づいています。これにより、相互情報(MI)と条件付き相互情報(CMI)の両方で、理論的公平性の一般化境界を導き出すことができます。
私たちの経験的結果は、多様な公平性に対応する学習アルゴリズム全体で、これらの境界の緊密性と実用的な関連性を検証します。
私たちのフレームワークは、公平性の一般化を改善するアルゴリズムの設計を導くための貴重な洞察を提供します。

要約(オリジナル)

Despite substantial progress in promoting fairness in high-stake applications using machine learning models, existing methods often modify the training process, such as through regularizers or other interventions, but lack formal guarantees that fairness achieved during training will generalize to unseen data. Although overfitting with respect to prediction performance has been extensively studied, overfitting in terms of fairness loss has received far less attention. This paper proposes a theoretical framework for analyzing fairness generalization error through an information-theoretic lens. Our novel bounding technique is based on Efron-Stein inequality, which allows us to derive tight information-theoretic fairness generalization bounds with both Mutual Information (MI) and Conditional Mutual Information (CMI). Our empirical results validate the tightness and practical relevance of these bounds across diverse fairness-aware learning algorithms. Our framework offers valuable insights to guide the design of algorithms improving fairness generalization.

arxiv情報

著者 Firas Laakom,Haobo Chen,Jürgen Schmidhuber,Yuheng Bu
発行日 2025-06-09 15:24:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IT, cs.LG, math.IT | Fairness Overfitting in Machine Learning: An Information-Theoretic Perspective はコメントを受け付けていません

Lightweight Sequential Transformers for Blood Glucose Level Prediction in Type-1 Diabetes

要約

1型糖尿病(T1D)は世界中の数百万人に影響を及ぼし、重度の低血糖イベントを防ぐために継続的な監視が必要です。
継続的なグルコースモニタリングにより血糖管理が改善されましたが、ウェアラブルデバイスに予測モデルを展開することは、計算およびメモリの制約のために依然として困難です。
これに対処するために、T1Dの血糖予測のために設計された新しい軽量シーケンシャルトランスモデルを提案します。
トランスの注意メカニズムの強度と再発性ニューラルネットワークの連続的な処理を統合することにより、当社のアーキテクチャは計算効率を維持しながら長期依存関係を捉えています。
このモデルは、リソース制約のあるエッジデバイスの展開に最適化されており、バランスの取れた損失関数を組み込んで、低血糖および高血糖イベントの固有のデータの不均衡を処理します。
2つのベンチマークデータセット、Ohiot1DMとDiatrendの実験は、提案されたモデルがグルコースレベルを予測し、有害事象を検出する際に最先端の方法を上回ることを示しています。
この作業は、高性能モデリングと実用的な展開とのギャップを埋め、信頼できる効率的なT1D管理ソリューションを提供します。

要約(オリジナル)

Type 1 Diabetes (T1D) affects millions worldwide, requiring continuous monitoring to prevent severe hypo- and hyperglycemic events. While continuous glucose monitoring has improved blood glucose management, deploying predictive models on wearable devices remains challenging due to computational and memory constraints. To address this, we propose a novel Lightweight Sequential Transformer model designed for blood glucose prediction in T1D. By integrating the strengths of Transformers’ attention mechanisms and the sequential processing of recurrent neural networks, our architecture captures long-term dependencies while maintaining computational efficiency. The model is optimized for deployment on resource-constrained edge devices and incorporates a balanced loss function to handle the inherent data imbalance in hypo- and hyperglycemic events. Experiments on two benchmark datasets, OhioT1DM and DiaTrend, demonstrate that the proposed model outperforms state-of-the-art methods in predicting glucose levels and detecting adverse events. This work fills the gap between high-performance modeling and practical deployment, providing a reliable and efficient T1D management solution.

arxiv情報

著者 Mirko Paolo Barbato,Giorgia Rigamonti,Davide Marelli,Paolo Napoletano
発行日 2025-06-09 15:27:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Lightweight Sequential Transformers for Blood Glucose Level Prediction in Type-1 Diabetes はコメントを受け付けていません

DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance

要約

大規模な言語モデル(LLMS)の推論中に記憶負担を軽減するために、注意のスパース性などの側面を調査することにより、KVキャッシュの圧縮に多くの研究が焦点を合わせています。
これらの手法は、多くの場合、事前に定義されたKV予算で設計されています。
ただし、最適な予算は、入力の長さとタスクタイプが異なることによって変化するため、固定予算の存在により、パフォーマンスが一貫性のないパフォーマンスが多様なドメインの入力を受け入れる可能性があります。
この制限に対処するために、新しいKVキャッシュ圧縮目的を提案します。特定の入力に関係なく、常にフルキャッシュのパフォーマンスを確保し、KVキャッシュ剪定を可能な限り最大化します。
この目標を達成するために、DBUDGETKVと呼ばれる新しいKVキャッシュ圧縮法を導入します。これは、残りのKVキャッシュがフルキャッシュパフォーマンスと一致する可能性が低いときに信号を送信するための注意ベースのメトリックを特徴とし、剪定プロセスを停止します。
多様なコンテキストの長さ、タスクタイプ、およびモデルサイズにまたがる経験的評価は、私たちの方法が平均で25%の圧縮比を超えるロスレスKV剪定を効果的かつ堅牢に達成することを示唆しています。
さらに、私たちの方法は、メモリ空間を最適化するだけでなく、既存の方法と比較して推論時間の短縮を示しているLLM推論内に簡単に統合できます。

要約(オリジナル)

To alleviate memory burden during inference of large language models (LLMs), numerous studies have focused on compressing the KV cache by exploring aspects such as attention sparsity. These techniques are often designed with a pre-defined KV budget; however, as the optimal budget varies by different input lengths and task types, the existence of a fixed budget could result in inconsistent performance accepting inputs of diverse domains. To address this limitation, we propose a new KV cache compression objective: to always ensure the full-cache performance regardless of specific inputs, while maximizing KV cache pruning as much as possible. To achieve this goal, we introduce a novel KV cache compression method dubbed DBudgetKV, which features an attention-based metric to signal when the remaining KV cache is unlikely to match the full-cache performance, then halting the pruning process. Empirical evaluation spanning diverse context lengths, task types, and model sizes suggests that our method achieves lossless KV pruning effectively and robustly, exceeding 25% compression ratio on average. Furthermore, our method is easy to integrate within LLM inference, not only optimizing memory space, but also showing reduced inference time compared to existing methods.

arxiv情報

著者 Xuanfan Ni,Liyan Xu,Chenyang Lyu,Longyue Wang,Mo Yu,Lemao Liu,Fandong Meng,Jie Zhou,Piji Li
発行日 2025-06-09 15:31:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | DBudgetKV: Dynamic Budget in KV Cache Compression for Ensuring Optimal Performance はコメントを受け付けていません

Evaluating Large Language Models on the Frame and Symbol Grounding Problems: A Zero-shot Benchmark

要約

大規模な言語モデル(LLMS)の最近の進歩は、人工知能を取り巻く哲学的議論を活性化しました。
最も基本的な課題の2つ、つまりフレームの問題とシンボルの接地問題 – は、従来の象徴的なAIシステム内では歴史的には解決できないと見なされてきました。
この研究では、現代のLLMがこれらの問題に対処するために必要な認知能力を持っているかどうかを調査します。
そのために、各問題の哲学的コアを反映した2つのベンチマークタスクを設計し、ゼロショット条件下で13の顕著なLLMS(閉鎖およびオープンソースの両方)に管理し、それぞれ5つの試行でモデルの出力の品質を評価しました。
コンテキストの推論、セマンティックコヒーレンス、情報フィルタリングなど、複数の基準に沿って応答が採点されました。
結果は、オープンソースモデルがモデルサイズ、量子化、および命令チューニングの違いによりパフォーマンスの変動性を示した一方で、いくつかの閉じたモデルが一貫して高スコアを達成したことを示しています。
これらの調査結果は、選択した最新のLLMが、これらの長年の理論的課題に対する意味のある安定した反応を生み出すのに十分な能力を獲得している可能性があることを示唆しています。

要約(オリジナル)

Recent advancements in large language models (LLMs) have revitalized philosophical debates surrounding artificial intelligence. Two of the most fundamental challenges – namely, the Frame Problem and the Symbol Grounding Problem – have historically been viewed as unsolvable within traditional symbolic AI systems. This study investigates whether modern LLMs possess the cognitive capacities required to address these problems. To do so, I designed two benchmark tasks reflecting the philosophical core of each problem, administered them under zero-shot conditions to 13 prominent LLMs (both closed and open-source), and assessed the quality of the models’ outputs across five trials each. Responses were scored along multiple criteria, including contextual reasoning, semantic coherence, and information filtering. The results demonstrate that while open-source models showed variability in performance due to differences in model size, quantization, and instruction tuning, several closed models consistently achieved high scores. These findings suggest that select modern LLMs may be acquiring capacities sufficient to produce meaningful and stable responses to these long-standing theoretical challenges.

arxiv情報

著者 Shoko Oka
発行日 2025-06-09 16:12:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Evaluating Large Language Models on the Frame and Symbol Grounding Problems: A Zero-shot Benchmark はコメントを受け付けていません

MiniCPM4: Ultra-Efficient LLMs on End Devices

要約

このペーパーでは、エンドサイドデバイス向けに明示的に設計された非常に効率的な大型言語モデル(LLM)であるMinicPM4を紹介します。
私たちは、モデルアーキテクチャ、トレーニングデータ、トレーニングアルゴリズム、および推論システムの4つの重要な側面での体系的なイノベーションを通じて、この効率を達成します。
具体的には、モデルアーキテクチャの観点から、infllm v2を提案します。これは、長いコンテキスト処理のために、浸透率とデコード相の両方を加速するトレーニング可能なまばらな注意メカニズムです。
トレーニングデータに関して、効率的かつ正確なトレーニング前のデータフィルタリングと生成戦略であるUltracleanと、包括的な監視された微調整データセットであるUltrachat V2を提案します。
これらのデータセットにより、わずか8兆トレーニングトークンを使用して満足のいくモデルパフォーマンスを実現できます。
トレーニングアルゴリズムについては、効率的なトレーニング前の戦略検索のためにModelTunnel V2を提案し、負荷分散補強学習とデータ効率の良いテナリーLLM、BITCPMのためにチャンクごとのロールアウトを導入することにより、既存のトレーニング後の方法を改善します。
推論システムに関しては、効率的な摂取とデコードを実現するために、まばらな注意、モデルの量子化、および投機的サンプリングを統合するCPM.CUを提案します。
多様なオンデバイス要件を満たすために、MINICPM4はそれぞれ0.5Bと8Bのパラメーターを備えた2つのバージョンで利用できます。
十分な評価結果は、MINICPM4が複数のベンチマークにわたって同様のサイズのオープンソースモデルを上回ることを示しており、その効率と有効性の両方を強調しています。
特に、MINICPM4-8Bは、長いシーケンスを処理する際にQWEN3-8Bよりも大幅な速度改善を示しています。
さらなる適応を通じて、MINICPM4は、モデルコンテキストプロトコルを使用した信頼できる調査生成とツールの使用を含む多様なアプリケーションのパワーに成功し、その幅広いユーザビリティを明確に示しています。

要約(オリジナル)

This paper introduces MiniCPM4, a highly efficient large language model (LLM) designed explicitly for end-side devices. We achieve this efficiency through systematic innovation in four key dimensions: model architecture, training data, training algorithms, and inference systems. Specifically, in terms of model architecture, we propose InfLLM v2, a trainable sparse attention mechanism that accelerates both prefilling and decoding phases for long-context processing. Regarding training data, we propose UltraClean, an efficient and accurate pre-training data filtering and generation strategy, and UltraChat v2, a comprehensive supervised fine-tuning dataset. These datasets enable satisfactory model performance to be achieved using just 8 trillion training tokens. Regarding training algorithms, we propose ModelTunnel v2 for efficient pre-training strategy search, and improve existing post-training methods by introducing chunk-wise rollout for load-balanced reinforcement learning and data-efficient tenary LLM, BitCPM. Regarding inference systems, we propose CPM.cu that integrates sparse attention, model quantization, and speculative sampling to achieve efficient prefilling and decoding. To meet diverse on-device requirements, MiniCPM4 is available in two versions, with 0.5B and 8B parameters, respectively. Sufficient evaluation results show that MiniCPM4 outperforms open-source models of similar size across multiple benchmarks, highlighting both its efficiency and effectiveness. Notably, MiniCPM4-8B demonstrates significant speed improvements over Qwen3-8B when processing long sequences. Through further adaptation, MiniCPM4 successfully powers diverse applications, including trustworthy survey generation and tool use with model context protocol, clearly showcasing its broad usability.

arxiv情報

著者 MiniCPM Team,Chaojun Xiao,Yuxuan Li,Xu Han,Yuzhuo Bai,Jie Cai,Haotian Chen,Wentong Chen,Xin Cong,Ganqu Cui,Ning Ding,Shengdan Fan,Yewei Fang,Zixuan Fu,Wenyu Guan,Yitong Guan,Junshao Guo,Yufeng Han,Bingxiang He,Yuxiang Huang,Cunliang Kong,Qiuzuo Li,Siyuan Li,Wenhao Li,Yanghao Li,Yishan Li,Zhen Li,Dan Liu,Biyuan Lin,Yankai Lin,Xiang Long,Quanyu Lu,Yaxi Lu,Peiyan Luo,Hongya Lyu,Litu Ou,Yinxu Pan,Zekai Qu,Qundong Shi,Zijun Song,Jiayuan Su,Zhou Su,Ao Sun,Xianghui Sun,Peijun Tang,Fangzheng Wang,Feng Wang,Shuo Wang,Yudong Wang,Yesai Wu,Zhenyu Xiao,Jie Xie,Zihao Xie,Yukun Yan,Jiarui Yuan,Kaihuo Zhang,Lei Zhang,Linyue Zhang,Xueren Zhang,Yudi Zhang,Hengyu Zhao,Weilin Zhao,Weilun Zhao,Yuanqian Zhao,Zhi Zheng,Ge Zhou,Jie Zhou,Wei Zhou,Zihan Zhou,Zixuan Zhou,Zhiyuan Liu,Guoyang Zeng,Chao Jia,Dahai Li,Maosong Sun
発行日 2025-06-09 16:16:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | MiniCPM4: Ultra-Efficient LLMs on End Devices はコメントを受け付けていません