Harnessing Multiple Large Language Models: A Survey on LLM Ensemble

要約

LLM Ensembleは、それぞれが個々の強みから利益を得るために、それぞれが下流の推論中にユーザークエリを処理することを目的とした複数の大規模な言語モデル(LLM)を包括的に使用することを含む – 最近かなりの注目を集めています。
LLMの広範な可用性は、さまざまな強みとすぐに使用できる使いやすさと相まって、LLMアンサンブルの分野を大きく進めてきました。
このペーパーでは、LLMアンサンブルの最近の開発に関する最初の系統的レビューを紹介します。
まず、LLMアンサンブルの分類法を紹介し、いくつかの関連する研究問題について議論します。
次に、「アンサンブルの前にインクラフィング、アンサンブル – during-during-after-after-after-inference」の幅広いカテゴリの下で、メソッドのより詳細な分類を提供し、すべての関連する方法を確認します。
最後に、関連するベンチマークとアプリケーションを紹介し、既存の研究を要約し、いくつかの将来の研究の方向性を提案します。
LLMアンサンブルに関する論文のキュレーションリストは、https://github.com/junchenzhi/awesome-llm-ensembleで入手できます。

要約(オリジナル)

LLM Ensemble — which involves the comprehensive use of multiple large language models (LLMs), each aimed at handling user queries during downstream inference, to benefit from their individual strengths — has gained substantial attention recently. The widespread availability of LLMs, coupled with their varying strengths and out-of-the-box usability, has profoundly advanced the field of LLM Ensemble. This paper presents the first systematic review of recent developments in LLM Ensemble. First, we introduce our taxonomy of LLM Ensemble and discuss several related research problems. Then, we provide a more in-depth classification of the methods under the broad categories of ‘ensemble-before-inference, ensemble-during-inference, ensemble-after-inference”, and review all relevant methods. Finally, we introduce related benchmarks and applications, summarize existing studies, and suggest several future research directions. A curated list of papers on LLM Ensemble is available at https://github.com/junchenzhi/Awesome-LLM-Ensemble.

arxiv情報

著者 Zhijun Chen,Jingzheng Li,Pengpeng Chen,Zhuoran Li,Kai Sun,Yuankai Luo,Qianren Mao,Dingqi Yang,Hailong Sun,Philip S. Yu
発行日 2025-05-15 16:08:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Harnessing Multiple Large Language Models: A Survey on LLM Ensemble はコメントを受け付けていません

Parallel Scaling Law for Language Models

要約

パラメーター(パラメータースケーリング)または出力トークン(推論時間スケーリング)を増やすことにより、言語モデルのスケーリングモデルはかなりのスペースまたは時間コストをコミットする必要があると一般に考えられています。
3番目のより推論効率の高いスケーリングパラダイムを紹介します。トレーニング時間と推論時間の両方でモデルの並列計算を増やします。
入力に$ P $の多様で学習可能な変換を適用し、モデルのフォワードパスを並行して実行し、$ P $の出力を動的に集約します。
この方法、つまり並列スケーリング(パースケール)は、既存のパラメーターを再利用することにより並列計算をスケールし、任意のモデル構造、最適化手順、データ、またはタスクに適用できます。
理論的には新しいスケーリング法を提案し、大規模なスケール前トレーニングを通じて検証します。これは、$ P $並列ストリームを持つモデルが、優れた推論効率を示しながらパラメーターを$ O(\ log P)$でスケーリングすることに似ていることを示しています。
たとえば、パースケールは、同じパフォーマンスの改善を達成するパラメータースケーリングと比較して、最大22 $ \ Times $メモリの増加と6 $ \ Times $のレイテンシの増加を使用できます。
また、少量のトークンでトレーニング後に並行してスケーリングされたモデルに既製の事前に訓練されたモデルをリサイクルし、トレーニング予算をさらに削減することができます。
発見した新しいスケーリング法は、低リソースシナリオでより強力なモデルの展開を促進する可能性があり、機械学習における計算の役割の代替視点を提供します。

要約(オリジナル)

It is commonly believed that scaling language models should commit a significant space or time cost, by increasing the parameters (parameter scaling) or output tokens (inference-time scaling). We introduce the third and more inference-efficient scaling paradigm: increasing the model’s parallel computation during both training and inference time. We apply $P$ diverse and learnable transformations to the input, execute forward passes of the model in parallel, and dynamically aggregate the $P$ outputs. This method, namely parallel scaling (ParScale), scales parallel computation by reusing existing parameters and can be applied to any model structure, optimization procedure, data, or task. We theoretically propose a new scaling law and validate it through large-scale pre-training, which shows that a model with $P$ parallel streams is similar to scaling the parameters by $O(\log P)$ while showing superior inference efficiency. For example, ParScale can use up to 22$\times$ less memory increase and 6$\times$ less latency increase compared to parameter scaling that achieves the same performance improvement. It can also recycle an off-the-shelf pre-trained model into a parallelly scaled one by post-training on a small amount of tokens, further reducing the training budget. The new scaling law we discovered potentially facilitates the deployment of more powerful models in low-resource scenarios, and provides an alternative perspective for the role of computation in machine learning.

arxiv情報

著者 Mouxiang Chen,Binyuan Hui,Zeyu Cui,Jiaxi Yang,Dayiheng Liu,Jianling Sun,Junyang Lin,Zhongxin Liu
発行日 2025-05-15 16:24:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Parallel Scaling Law for Language Models はコメントを受け付けていません

SceneGenAgent: Precise Industrial Scene Generation with Coding Agent

要約

産業シーンのモデリングは、産業製造のシミュレーションに不可欠です。
大規模な言語モデル(LLM)は、テキストの説明から一般的な3Dシーンを生成する際に大きな進歩を示していますが、LLMSで産業シーンを生成することは、正確な測定と位置決めに対する需要のために独自の課題となり、空間的配置に対する複雑な計画が必要です。
この課題に対処するために、C#コードを通じて産業シーンを生成するためのLLMベースのエージェントであるSceneGenagentを紹介します。
SceneGenagentは、産業シナリオの定量的要件を満たすために、構造化された計算可能な形式、レイアウト検証、および反復改良を通じて、正確なレイアウト計画を保証します。
実験結果は、Scenegenagentを搭載したLLMSが元のパフォーマンスを超え、現実世界の産業シーン生成タスクで最大81.0%の成功率に達し、ほとんどのシーン生成要件を効果的に満たすことを示しています。
アクセシビリティをさらに強化するために、SceneInStructを構築します。SceneInStructは、SceneGenagentに統合するためにオープンソースLLMを微調整するために設計されたデータセットです。
実験では、シーンインストラクチャの微調整オープンソースLLMが大幅なパフォーマンスの改善をもたらし、LLAMA3.1-70BがGPT-4Oの機能に近づいていることを示しています。
コードとデータは、https://github.com/thudm/scenegenagentで入手できます。

要約(オリジナル)

The modeling of industrial scenes is essential for simulations in industrial manufacturing. While large language models (LLMs) have shown significant progress in generating general 3D scenes from textual descriptions, generating industrial scenes with LLMs poses a unique challenge due to their demand for precise measurements and positioning, requiring complex planning over spatial arrangement. To address this challenge, we introduce SceneGenAgent, an LLM-based agent for generating industrial scenes through C# code. SceneGenAgent ensures precise layout planning through a structured and calculable format, layout verification, and iterative refinement to meet the quantitative requirements of industrial scenarios. Experiment results demonstrate that LLMs powered by SceneGenAgent exceed their original performance, reaching up to 81.0% success rate in real-world industrial scene generation tasks and effectively meeting most scene generation requirements. To further enhance accessibility, we construct SceneInstruct, a dataset designed for fine-tuning open-source LLMs to integrate into SceneGenAgent. Experiments show that fine-tuning open-source LLMs on SceneInstruct yields significant performance improvements, with Llama3.1-70B approaching the capabilities of GPT-4o. Our code and data are available at https://github.com/THUDM/SceneGenAgent .

arxiv情報

著者 Xiao Xia,Dan Zhang,Zibo Liao,Zhenyu Hou,Tianrui Sun,Jing Li,Ling Fu,Yuxiao Dong
発行日 2025-05-15 16:40:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SE | SceneGenAgent: Precise Industrial Scene Generation with Coding Agent はコメントを受け付けていません

CL-RAG: Bridging the Gap in Retrieval-Augmented Generation with Curriculum Learning

要約

検索された生成(RAG)は、大規模な言語モデル(LLM)の機能を強化する効果的な方法です。
既存の方法は、TOP-K取得ドキュメントを直接利用することにより、RAGシステムのレトリバーまたはジェネレーターの最適化に焦点を当てています。
ただし、ドキュメントの有効性はユーザークエリ全体でさまざまに大幅に重要です。つまり、一部のドキュメントは貴重な知識を提供しますが、他のドキュメントには重要な情報が完全に欠けています。
トレーニング中のレトリバーとジェネレーターの適応を妨げます。
人間の認知学習に触発されたカリキュラム学習は、簡単なものから困難へと進むサンプルを使用してモデルを訓練し、そのため一般化能力を向上させ、この効果的なパラダイムをRAGシステムのトレーニングに統合します。
この論文では、CL-RAGという名前のマルチステージカリキュラム学習ベースのRAGシステムトレーニングフレームワークを提案します。
最初に、サンプルの進化を通じて、レトリバーとジェネレーターの複数の難易度レベルでトレーニングデータを構築します。
次に、カリキュラム学習アプローチに基づいてモデルを段階的にトレーニングし、それによりRAGシステムの全体的なパフォーマンスと一般化をより効果的に最適化します。
CL-RAGフレームワークは、4つのオープンドメインQAデータセットにわたって一貫した効果を示し、複数の高度な方法で2%〜4%のパフォーマンスの向上を達成しています。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) is an effective method to enhance the capabilities of large language models (LLMs). Existing methods focus on optimizing the retriever or generator in the RAG system by directly utilizing the top-k retrieved documents. However, the documents effectiveness are various significantly across user queries, i.e. some documents provide valuable knowledge while others totally lack critical information. It hinders the retriever and generator’s adaptation during training. Inspired by human cognitive learning, curriculum learning trains models using samples progressing from easy to difficult, thus enhancing their generalization ability, and we integrate this effective paradigm to the training of the RAG system. In this paper, we propose a multi-stage Curriculum Learning based RAG system training framework, named CL-RAG. We first construct training data with multiple difficulty levels for the retriever and generator separately through sample evolution. Then, we train the model in stages based on the curriculum learning approach, thereby optimizing the overall performance and generalization of the RAG system more effectively. Our CL-RAG framework demonstrates consistent effectiveness across four open-domain QA datasets, achieving performance gains of 2% to 4% over multiple advanced methods.

arxiv情報

著者 Shaohan Wang,Licheng Zhang,Zheren Fu,Zhendong Mao
発行日 2025-05-15 16:53:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CL-RAG: Bridging the Gap in Retrieval-Augmented Generation with Curriculum Learning はコメントを受け付けていません

Can You Really Trust Code Copilots? Evaluating Large Language Models from a Code Security Perspective

要約

コードセキュリティとユーザビリティは、大規模な言語モデル(LLM)によって駆動されるさまざまなコーディングアシスタントアプリケーションにも不可欠です。
現在のコードセキュリティベンチマークは、コードの完了や生成などの単一の評価タスクとパラダイムのみに焦点を当てており、安全なコード生成、脆弱性の修復、差別などの次元間の包括的な評価がありません。
この論文では、LLMコードセキュリティの包括的な評価のために、コードの完了、脆弱性修復、脆弱性の検出、分類などのさまざまなタスクをカバーするマルチタスクベンチマークであるCov-Evalを最初に提案します。
その上、私たちはVC-Judgeを開発しました。これは、人間の専門家と密接に一致し、より効率的で信頼できる方法でLLM生成されたプログラムをレビューできる改善された判断モデルです。
20の独自およびオープンソースLLMの包括的な評価を実施しています。
全体として、ほとんどのLLMは脆弱なコードをよく識別しますが、彼らは依然として不安定なコードを生成し、特定の脆弱性タイプの認識と修理を実行するのに苦労する傾向があります。
広範な実験と定性的分析により、重要な課題と最適化の方向性が明らかになり、LLMコードセキュリティにおける将来の研究の洞察を提供します。

要約(オリジナル)

Code security and usability are both essential for various coding assistant applications driven by large language models (LLMs). Current code security benchmarks focus solely on single evaluation task and paradigm, such as code completion and generation, lacking comprehensive assessment across dimensions like secure code generation, vulnerability repair and discrimination. In this paper, we first propose CoV-Eval, a multi-task benchmark covering various tasks such as code completion, vulnerability repair, vulnerability detection and classification, for comprehensive evaluation of LLM code security. Besides, we developed VC-Judge, an improved judgment model that aligns closely with human experts and can review LLM-generated programs for vulnerabilities in a more efficient and reliable way. We conduct a comprehensive evaluation of 20 proprietary and open-source LLMs. Overall, while most LLMs identify vulnerable codes well, they still tend to generate insecure codes and struggle with recognizing specific vulnerability types and performing repairs. Extensive experiments and qualitative analyses reveal key challenges and optimization directions, offering insights for future research in LLM code security.

arxiv情報

著者 Yutao Mou,Xiao Deng,Yuxiao Luo,Shikun Zhang,Wei Ye
発行日 2025-05-15 16:53:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Can You Really Trust Code Copilots? Evaluating Large Language Models from a Code Security Perspective はコメントを受け付けていません

RouteNator: A Router-Based Multi-Modal Architecture for Generating Synthetic Training Data for Function Calling LLMs

要約

このペーパーでは、実際のユーザーインタラクションデータが利用できない場合、機能タスクを呼び出すための大規模な言語モデル(LLMS)を微調整します。
デジタルコンテンツ作成ツールでは、ユーザーがAPI呼び出しにマッピングする必要がある自然言語クエリを通じてニーズを表現するため、実際のタスク固有のデータがないため、トレーニングのためのプライバシーの制約が合成データ生成を必要とします。
合成データ生成への既存のアプローチは、多様性と複雑さが不足しており、実際のデータ分布を複製できず、LLMの微調整後の最適ではないパフォーマンスにつながります。
コンテンツメタデータや構造化された知識グラフなどのドメインリソースを活用する新しいルーターベースのアーキテクチャを提示し、テキストからテキストへのテキスト対テキストへの言語モデルとともに、高品質の合成トレーニングデータを生成します。
当社のアーキテクチャの柔軟なルーティングメカニズムにより、観測された現実世界の分布に一致する合成データ生成が可能になり、従来のアプローチの基本的な制限に対処できます。
実際のユーザークエリの包括的なセットの評価は、関数分類精度とAPIパラメーター選択の両方の大幅な改善を示しています。
合成データで微調整されたモデルは、従来のアプローチよりも一貫してパフォーマンスを発揮し、関数呼び出しタスクの新しいベンチマークを確立します。

要約(オリジナル)

This paper addresses fine-tuning Large Language Models (LLMs) for function calling tasks when real user interaction data is unavailable. In digital content creation tools, where users express their needs through natural language queries that must be mapped to API calls, the lack of real-world task-specific data and privacy constraints for training on it necessitate synthetic data generation. Existing approaches to synthetic data generation fall short in diversity and complexity, failing to replicate real-world data distributions and leading to suboptimal performance after LLM fine-tuning. We present a novel router-based architecture that leverages domain resources like content metadata and structured knowledge graphs, along with text-to-text and vision-to-text language models to generate high-quality synthetic training data. Our architecture’s flexible routing mechanism enables synthetic data generation that matches observed real-world distributions, addressing a fundamental limitation of traditional approaches. Evaluation on a comprehensive set of real user queries demonstrates significant improvements in both function classification accuracy and API parameter selection. Models fine-tuned with our synthetic data consistently outperform traditional approaches, establishing new benchmarks for function calling tasks.

arxiv情報

著者 Vibha Belavadi,Tushar Vatsa,Dewang Sultania,Suhas Suresha,Ishita Verma,Cheng Chen,Tracy Holloway King,Michael Friedrich
発行日 2025-05-15 16:53:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | RouteNator: A Router-Based Multi-Modal Architecture for Generating Synthetic Training Data for Function Calling LLMs はコメントを受け付けていません

Disentangling Memory and Reasoning Ability in Large Language Models

要約

大規模な言語モデル(LLMS)は、広範な知識と推論能力の両方を必要とする複雑なタスクの処理において強力なパフォーマンスを実証しています。
ただし、既存のLLM推論パイプラインは、知識の検索と推論ステップを明示的に分離することなく、不透明なプロセスとして動作し、モデルの意思決定プロセスを不明確にし、混乱させます。
このあいまいさは、幻覚や知識の忘却などの問題につながる可能性があり、それがハイステークスドメインでのLLMの信頼性に大きな影響を与えます。
この論文では、複雑な推論プロセスを2つの明確なアクションに分解する新しい推論パラダイムを提案します。(1)メモリリコール:関連する知識を取得し、(2)推測された知識に基づいて論理的な手順を実行します。
この分解を容易にするために、2つの特別なトークンメモリと理由を導入し、知識の検索を必要とするステップと推論を含むステップを区別するようにモデルを導きます。
私たちの実験結果は、この分解がモデルのパフォーマンスを改善するだけでなく、推論プロセスの解釈可能性を向上させ、ユーザーがエラーの原因を特定し、モデル応答を効果的に改善できることを示しています。
このコードは、https://github.com/mingyuj666/disentangling-memory and-reasoningで入手できます。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated strong performance in handling complex tasks requiring both extensive knowledge and reasoning abilities. However, the existing LLM inference pipeline operates as an opaque process without explicit separation between knowledge retrieval and reasoning steps, making the model’s decision-making process unclear and disorganized. This ambiguity can lead to issues such as hallucinations and knowledge forgetting, which significantly impact the reliability of LLMs in high-stakes domains. In this paper, we propose a new inference paradigm that decomposes the complex inference process into two distinct and clear actions: (1) memory recall: which retrieves relevant knowledge, and (2) reasoning: which performs logical steps based on the recalled knowledge. To facilitate this decomposition, we introduce two special tokens memory and reason, guiding the model to distinguish between steps that require knowledge retrieval and those that involve reasoning. Our experiment results show that this decomposition not only improves model performance but also enhances the interpretability of the inference process, enabling users to identify sources of error and refine model responses effectively. The code is available at https://github.com/MingyuJ666/Disentangling-Memory-and-Reasoning.

arxiv情報

著者 Mingyu Jin,Weidi Luo,Sitao Cheng,Xinyi Wang,Wenyue Hua,Ruixiang Tang,William Yang Wang,Yongfeng Zhang
発行日 2025-05-15 17:05:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Disentangling Memory and Reasoning Ability in Large Language Models はコメントを受け付けていません

The Devil Is in the Word Alignment Details: On Translation-Based Cross-Lingual Transfer for Token Classification Tasks

要約

翻訳トレインなど、翻訳を横断する転送XLTのための翻訳ベースの戦略 – ソース言語から翻訳された騒々しいターゲット言語データのトレーニング – および翻訳テスト – ターゲット言語から翻訳された騒々しいソース言語データの評価 – 競争力のあるXLTベースラインです。
ただし、トークン分類タスク用のXLTでは、これらの戦略には、ラベル投影が含まれます。これは、元のテークンの各トークンから翻訳のカウンターパートにラベルをマッピングするという挑戦的なステップです。
単語アライナー(WES)は一般的にラベル投影に使用されますが、翻訳ベースのXLTに適用するための低レベルの設計決定は体系的に調査されていません。
さらに、プロジェクトが翻訳の前(または後)の周りにタグを挿入することによってスパンとラベル付けされた最近のマーカーベースの方法は、XLTのラベル投影にあると主張しています。
この作業では、ラベル投影のためのものであり、トークンレベルのXLTに対する低レベルの設計上の決定の効果を体系的に調査しました。
これらはすべて、翻訳ベースのXLTパフォーマンスに実質的に影響を与えることがわかり、最適化された選択により、WAを備えたXLTは、少なくともマーカーベースの方法に匹敵するパフォーマンスを提供することを示しています。
次に、アンサンブルを翻訳し、テストの予測を翻訳し、マーカーベースの投影を大幅に上回ることを実証する新しい投影戦略を導入します。
重要なことに、提案されたアンサンミングは、低レベルのWA設計の選択に対する感度も低下させ、トークン分類タスクのXLTがより堅牢になることを示しています。

要約(オリジナル)

Translation-based strategies for cross-lingual transfer XLT such as translate-train — training on noisy target language data translated from the source language — and translate-test — evaluating on noisy source language data translated from the target language — are competitive XLT baselines. In XLT for token classification tasks, however, these strategies include label projection, the challenging step of mapping the labels from each token in the original sentence to its counterpart(s) in the translation. Although word aligners (WAs) are commonly used for label projection, the low-level design decisions for applying them to translation-based XLT have not been systematically investigated. Moreover, recent marker-based methods, which project labeled spans by inserting tags around them before (or after) translation, claim to outperform WAs in label projection for XLT. In this work, we revisit WAs for label projection, systematically investigating the effects of low-level design decisions on token-level XLT: (i) the algorithm for projecting labels between (multi-)token spans, (ii) filtering strategies to reduce the number of noisily mapped labels, and (iii) the pre-tokenization of the translated sentences. We find that all of these substantially impact translation-based XLT performance and show that, with optimized choices, XLT with WA offers performance at least comparable to that of marker-based methods. We then introduce a new projection strategy that ensembles translate-train and translate-test predictions and demonstrate that it substantially outperforms the marker-based projection. Crucially, we show that our proposed ensembling also reduces sensitivity to low-level WA design choices, resulting in more robust XLT for token classification tasks.

arxiv情報

著者 Benedikt Ebing,Goran Glavaš
発行日 2025-05-15 17:10:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | The Devil Is in the Word Alignment Details: On Translation-Based Cross-Lingual Transfer for Token Classification Tasks はコメントを受け付けていません

WorldPM: Scaling Human Preference Modeling

要約

モデルとデータセットのサイズを備えたパワー法則としてのテスト損失スケールを示す言語モデリングの法則のスケーリングによって動機付けられているため、優先モデリングに同様の法則が存在することがわかります。
世界の好みが人間の好みの統一された表現を具体化するこのスケーリングの可能性を強調するために、世界の好みモデリング$(worldpm)を提案します。
この論文では、多様なユーザーコミュニティをカバーするパブリックフォーラムから優先データを収集し、1.5Bから72Bのパラメーターの範囲のモデル全体で15mスケールのデータを使用して広範なトレーニングを実施しています。
さまざまな評価メトリック全体で異なるパターンを観察します。(1)敵対的なメトリック(欺ceptive的な特徴を識別する能力)は、トレーニングデータとベースモデルサイズの増加と一貫してスケールアップします。
(2)客観的なメトリック(明確に定義された答えを伴う客観的な知識)は、より大きな言語モデルで緊急行動を示し、WorldPMのスケーラビリティの可能性を強調します。
(3)主観的な指標(限られた数の人間またはAIからの主観的な好み)は、スケーリングの傾向を示していません。
さらなる実験では、優先微調整の基礎としてのWorldPMの有効性を検証します。
20のサブタスクを備えた7つのベンチマークでの評価を通じて、WorldPMは、さまざまなサイズ(7K、100Kおよび800Kサンプル)の人間の好みデータセット間の一般化パフォーマンスを大幅に改善し、多くの重要なサブタスクで5%を超えるパフォーマンスの向上があります。
WorldPMを内部のRLHFパイプラインに統合すると、社内評価セットとパブリック評価セットの両方で大幅な改善が見られ、社内評価では4%〜8%の顕著な利益が見られます。

要約(オリジナル)

Motivated by scaling laws in language modeling that demonstrate how test loss scales as a power law with model and dataset sizes, we find that similar laws exist in preference modeling. We propose World Preference Modeling$ (WorldPM) to emphasize this scaling potential, where World Preference embodies a unified representation of human preferences. In this paper, we collect preference data from public forums covering diverse user communities, and conduct extensive training using 15M-scale data across models ranging from 1.5B to 72B parameters. We observe distinct patterns across different evaluation metrics: (1) Adversarial metrics (ability to identify deceptive features) consistently scale up with increased training data and base model size; (2) Objective metrics (objective knowledge with well-defined answers) show emergent behavior in larger language models, highlighting WorldPM’s scalability potential; (3) Subjective metrics (subjective preferences from a limited number of humans or AI) do not demonstrate scaling trends. Further experiments validate the effectiveness of WorldPM as a foundation for preference fine-tuning. Through evaluations on 7 benchmarks with 20 subtasks, we find that WorldPM broadly improves the generalization performance across human preference datasets of varying sizes (7K, 100K and 800K samples), with performance gains exceeding 5% on many key subtasks. Integrating WorldPM into our internal RLHF pipeline, we observe significant improvements on both in-house and public evaluation sets, with notable gains of 4% to 8% in our in-house evaluations.

arxiv情報

著者 Binghai Wang,Runji Lin,Keming Lu,Le Yu,Zhenru Zhang,Fei Huang,Chujie Zheng,Kai Dang,Yang Fan,Xingzhang Ren,An Yang,Binyuan Hui,Dayiheng Liu,Tao Gui,Qi Zhang,Xuanjing Huang,Yu-Gang Jiang,Bowen Yu,Jingren Zhou,Junyang Lin
発行日 2025-05-15 17:38:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | WorldPM: Scaling Human Preference Modeling はコメントを受け付けていません

Beyond ‘Aha!’: Toward Systematic Meta-Abilities Alignment in Large Reasoning Models

要約

大規模な推論モデル(LRMS)は、既に長い考え方の推論のために潜在能力を持っています。
以前の研究では、結果に基づく強化学習(RL)が、モデルの「AHAの瞬間」と呼ばれることが多いことが多い自己修正、バックトラッキング、検証現象などの高度な推論行動を偶然引き出すことができることが示されています。
ただし、これらの緊急行動のタイミングと一貫性は、LRMSの推論能力のスケーラビリティと信頼性を制限する予測不可能で制御不能のままです。
これらの制限に対処するために、私たちはプロンプトと偶然の「ahaの瞬間」への依存を超えて移動します。
代わりに、モデルを自動的に生成された自己検証可能なタスクを使用して、モデルを控除、誘導、および誘ductionの3つのメタ機能と明示的に整列させます。
3つのステージパイプラインの個々のアライメント、パラメータースペースの合併、およびドメイン固有の補強学習は、命令チューニングベースラインと比較して10 \%を超えるパフォーマンスを高めます。
さらに、整列されたチェックポイントからドメイン固有のRLは、数学、コーディング、および科学ベンチマーク全体でパフォーマンス上限に2 \%の平均ゲインを追加し、明示的なメタ性アラインメントが推論のためのスケーラブルで信頼できる基盤を提供することを示しています。
コードは、https://github.com/zhiyuanhubj/meta-ability-alignmentで入手できます

要約(オリジナル)

Large reasoning models (LRMs) already possess a latent capacity for long chain-of-thought reasoning. Prior work has shown that outcome-based reinforcement learning (RL) can incidentally elicit advanced reasoning behaviors such as self-correction, backtracking, and verification phenomena often referred to as the model’s ‘aha moment’. However, the timing and consistency of these emergent behaviors remain unpredictable and uncontrollable, limiting the scalability and reliability of LRMs’ reasoning capabilities. To address these limitations, we move beyond reliance on prompts and coincidental ‘aha moments’. Instead, we explicitly align models with three meta-abilities: deduction, induction, and abduction, using automatically generated, self-verifiable tasks. Our three stage-pipeline individual alignment, parameter-space merging, and domain-specific reinforcement learning, boosting performance by over 10\% relative to instruction-tuned baselines. Furthermore, domain-specific RL from the aligned checkpoint yields an additional 2\% average gain in the performance ceiling across math, coding, and science benchmarks, demonstrating that explicit meta-ability alignment offers a scalable and dependable foundation for reasoning. Code is available at: https://github.com/zhiyuanhubj/Meta-Ability-Alignment

arxiv情報

著者 Zhiyuan Hu,Yibo Wang,Hanze Dong,Yuhui Xu,Amrita Saha,Caiming Xiong,Bryan Hooi,Junnan Li
発行日 2025-05-15 17:58:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Beyond ‘Aha!’: Toward Systematic Meta-Abilities Alignment in Large Reasoning Models はコメントを受け付けていません