Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models

要約

最近の研究は、大規模な言語モデル(LLM)が監視された微調整または補強学習を通じて強力な推論能力を達成することを示しています。
ただし、重要なアプローチであるプロセス報酬モデル(PRM)は、報酬のハッキングに苦しんでおり、最良の中間ステップを特定する際に信頼性が低くなります。
このホワイトペーパーでは、微粒子と粗粒レベルからの個人的および連続的な推論ステップの両方を評価する新しい報酬モデルアプローチ、階層報酬モデル(HRM)を提案します。
HRMは、特に以前の推論ステップが正しくない場合、推論の一貫性と自己反省の評価においてより良いパフォーマンスを発揮します。
さらに、モンテカルロツリー検索(MCTS)を介した自律生成PRMトレーニングデータの非効率性に対処するために、ツリー構造のノードマージに基づく階層ノード圧縮(HNC)と呼ばれる軽量で効果的なデータ増強戦略(HNC)を導入します。
このアプローチは、HRMのMCTの結果を無視できる計算オーバーヘッドで多様化し、ノイズを導入することによりラベルの堅牢性を高めます。
PRM800Kデータセットの経験的結果は、HRMがHNCと併せて、PRMと比較して評価において優れた安定性と信頼性を達成することを示しています。
さらに、Math500およびGSM8Kのクロスドメイン評価は、多様な推論タスク全体のHRMの優れた一般化と堅牢性を確認します。
すべての実験のコードは、https://github.com/tengwang0318/hierarchial_reward_modelでリリースされます。

要約(オリジナル)

Recent studies show that Large Language Models (LLMs) achieve strong reasoning capabilities through supervised fine-tuning or reinforcement learning. However, a key approach, the Process Reward Model (PRM), suffers from reward hacking, making it unreliable in identifying the best intermediate steps. In this paper, we propose a novel reward model approach, Hierarchical Reward Model (HRM), which evaluates both individual and consecutive reasoning steps from fine-grained and coarse-grained level. HRM performs better in assessing reasoning coherence and self-reflection, particularly when the previous reasoning step is incorrect. Furthermore, to address the inefficiency of autonomous generating PRM training data via Monte Carlo Tree Search (MCTS), we introduce a lightweight and effective data augmentation strategy called Hierarchical Node Compression (HNC) based on node merging (combining two consecutive reasoning steps into one step) in the tree structure. This approach diversifies MCTS results for HRM with negligible computational overhead, enhancing label robustness by introducing noise. Empirical results on the PRM800K dataset demonstrate that HRM, in conjunction with HNC, achieves superior stability and reliability in evaluation compared to PRM. Furthermore, cross-domain evaluations on MATH500 and GSM8K confirm HRM’s superior generalization and robustness across diverse reasoning tasks. The code for all experiments will be released at https: //github.com/tengwang0318/hierarchial_reward_model.

arxiv情報

著者 Teng Wang,Zhangyi Jiang,Zhenqi He,Wenhan Yang,Yanan Zheng,Zeyu Li,Zifan He,Shenyang Tong,Hailei Gong
発行日 2025-03-19 15:43:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models はコメントを受け付けていません

Optimizing Decomposition for Optimal Claim Verification

要約

\ textit {分解 – verify}のパラダイムに関する現在の研究長い形式のテキストの事実性を評価するためのパラダイムは、通常、分解と検証を単独で扱い、相互作用と潜在的な誤りを見落とします。
既存の分解ポリシー(通常手作りのデモンストレーション)は、下流の検証因子(情報密度を定量化する新しいメトリック)の観点から下流の検証剤とうまく調和していないことがわかります。
バイレベル最適化問題として最適検証のための最適な分解ポリシーを見つけることを策定します。
この強力なNPハードの問題のソリューションを概算するために、検証剤フィードバックを活用して検証剤プロファリーの原子性に対するクレームを動的に分解するポリシーを学習する動的分解を提案します。
実験結果は、動的分解が既存の分解ポリシーよりも優れており、検証信頼度を0.07、精度を0.12(0-1スケールで)、さまざまな検証因子、データセット、および入力クレームの原子力によって平均して0.12(0-1スケール)を改善することを示しています。

要約(オリジナル)

Current research on the \textit{Decompose-Then-Verify} paradigm for evaluating the factuality of long-form text typically treats decomposition and verification in isolation, overlooking their interactions and potential misalignment. We find that existing decomposition policies, typically hand-crafted demonstrations, do not align well with downstream verifiers in terms of atomicity — a novel metric quantifying information density — leading to suboptimal verification results. We formulate finding the optimal decomposition policy for optimal verification as a bilevel optimization problem. To approximate a solution for this strongly NP-hard problem, we propose dynamic decomposition, a reinforcement learning framework that leverages verifier feedback to learn a policy for dynamically decomposing claims to verifier-preferred atomicity. Experimental results show that dynamic decomposition outperforms existing decomposition policies, improving verification confidence by 0.07 and accuracy by 0.12 (on a 0-1 scale) on average across varying verifiers, datasets, and atomcities of input claims.

arxiv情報

著者 Yining Lu,Noah Ziems,Hy Dang,Meng Jiang
発行日 2025-03-19 15:56:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Optimizing Decomposition for Optimal Claim Verification はコメントを受け付けていません

The Impact of Input Order Bias on Large Language Models for Software Fault Localization

要約

大規模な言語モデル(LLM)は、障害ローカリゼーション(FL)や自動プログラム修理(APR)などのソフトウェアエンジニアリングタスクに大きな可能性を示しています。
この調査では、入力順序とコンテキストサイズがフロリダ州のLLMパフォーマンスにどのように影響するかを調査します。これは、多くのダウンストリームソフトウェアエンジニアリングタスクにとって重要なステップです。
JavaプロジェクトとPythonプロジェクトを含む2つのベンチマークにわたって、「完全」(グラウンドトゥルースが最初に現れる)や「最悪の」(グラウンドトゥルースが最後に表示される)を含むケンダルタウ距離を使用して、さまざまなメソッド順序を評価します。
私たちの結果は強い注文のバイアスを明らかにしています。Javaプロジェクトでは、注文を逆転させると、Top-1 FLの精度は57%から20%に低下しますが、Pythonプロジェクトでは、38%から約3%に減少します。
ただし、入力をより小さなコンテキストにセグメント化すると、このバイアスが緩和され、FLのパフォーマンスギャップが22%と6%から両方のベンチマークでわずか1%に減少します。
メソッド名を意味的に意味のある代替手段に置き換えて、このバイアスがデータの漏れによるものかどうかを判断しました。
観察された傾向は一貫したままであり、バイアスはトレーニングデータからの暗記ではなく、入力順序の固有の効果によって引き起こされることを示唆しています。
さらに、従来のFLテクニックとメトリックに基づいた順序付け方法を検討し、Depgraphのランキングが48%のTOP-1の精度を達成し、CallGraph(DFS)などのより単純なアプローチを上回ることができます。
これらの調査結果は、入力を構築し、コンテキストを効果的に管理し、FLおよびその他のソフトウェアエンジニアリングアプリケーションでのLLMパフォーマンスを強化するための適切な順序付け戦略を選択することの重要性を強調しています。

要約(オリジナル)

Large Language Models (LLMs) have shown significant potential in software engineering tasks such as Fault Localization (FL) and Automatic Program Repair (APR). This study investigates how input order and context size influence LLM performance in FL, a crucial step for many downstream software engineering tasks. We evaluate different method orderings using Kendall Tau distances, including ‘perfect’ (where ground truths appear first) and ‘worst’ (where ground truths appear last), across two benchmarks containing Java and Python projects. Our results reveal a strong order bias: in Java projects, Top-1 FL accuracy drops from 57% to 20% when reversing the order, while in Python projects, it decreases from 38% to approximately 3%. However, segmenting inputs into smaller contexts mitigates this bias, reducing the performance gap in FL from 22% and 6% to just 1% across both benchmarks. We replaced method names with semantically meaningful alternatives to determine whether this bias is due to data leakage. The observed trends remained consistent, suggesting that the bias is not caused by memorization from training data but rather by the inherent effect of input order. Additionally, we explored ordering methods based on traditional FL techniques and metrics, finding that DepGraph’s ranking achieves 48% Top-1 accuracy, outperforming simpler approaches such as CallGraph(DFS). These findings highlight the importance of structuring inputs, managing context effectively, and selecting appropriate ordering strategies to enhance LLM performance in FL and other software engineering applications.

arxiv情報

著者 Md Nakhla Rafi,Dong Jae Kim,Tse-Hsun Chen,Shaowei Wang
発行日 2025-03-19 16:08:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE | The Impact of Input Order Bias on Large Language Models for Software Fault Localization はコメントを受け付けていません

Real-world validation of a multimodal LLM-powered pipeline for High-Accuracy Clinical Trial Patient Matching leveraging EHR data

要約

背景:臨床試験での患者の募集は、複雑な適格性基準と労働集約的なチャートレビューによって妨げられています。
テキストのみのモデルを使用した以前の研究は、(1)限られた推論能力、(2)視覚記録をテキストに変換することからの情報の損失、および(3)患者データを抽出するための一般的なEHR統合の欠如により、信頼できるスケーラブルな方法でこの問題に対処するのに苦労しています。
方法:EHRから抽出​​された未処理のドキュメントを使用して患者の試行マッチングを自動化する、広く適用可能な統合、統合、LLM駆動のパイプラインを紹介します。
私たちのアプローチは、(1)新しい推論-LLMパラダイムを活用し、最も複雑な基準の評価を可能にします。
パイプラインは、N2C2 2018コホート選択データセット(288人の糖尿病患者)と、36の多様な試験と一致した30の異なる部位の485人の患者で構成される実際のデータセットで検証されました。
結果:N2C2データセットでは、この方法で93 \%の新しい最先端の基準レベルの精度を達成しました。
実際の試験では、パイプラインは87 \%の精度を生み出しました。これは、医療記録に十分な情報がない場合に人間の意思決定を再現するのが難しいことによって損なわれました。
それにもかかわらず、ユーザーは患者あたり平均9分未満で全体的な適格性をレビューすることができ、従来のマニュアルチャートレビューよりも80%の改善を表しています。
結論:このパイプラインは、サイトシステムとのカスタム統合や試行固有の仕立てを必要とせずに臨床試験患者マッチングで堅牢なパフォーマンスを示し、それにより、患者マッチングのためにAIを活用しようとするサイト全体でスケーラブルな展開を可能にします。

要約(オリジナル)

Background: Patient recruitment in clinical trials is hindered by complex eligibility criteria and labor-intensive chart reviews. Prior research using text-only models have struggled to address this problem in a reliable and scalable way due to (1) limited reasoning capabilities, (2) information loss from converting visual records to text, and (3) lack of a generic EHR integration to extract patient data. Methods: We introduce a broadly applicable, integration-free, LLM-powered pipeline that automates patient-trial matching using unprocessed documents extracted from EHRs. Our approach leverages (1) the new reasoning-LLM paradigm, enabling the assessment of even the most complex criteria, (2) visual capabilities of latest LLMs to interpret medical records without lossy image-to-text conversions, and (3) multimodal embeddings for efficient medical record search. The pipeline was validated on the n2c2 2018 cohort selection dataset (288 diabetic patients) and a real-world dataset composed of 485 patients from 30 different sites matched against 36 diverse trials. Results: On the n2c2 dataset, our method achieved a new state-of-the-art criterion-level accuracy of 93\%. In real-world trials, the pipeline yielded an accuracy of 87\%, undermined by the difficulty to replicate human decision-making when medical records lack sufficient information. Nevertheless, users were able to review overall eligibility in under 9 minutes per patient on average, representing an 80\% improvement over traditional manual chart reviews. Conclusion: This pipeline demonstrates robust performance in clinical trial patient matching without requiring custom integration with site systems or trial-specific tailoring, thereby enabling scalable deployment across sites seeking to leverage AI for patient matching.

arxiv情報

著者 Anatole Callies,Quentin Bodinier,Philippe Ravaud,Kourosh Davarpanah
発行日 2025-03-19 16:12:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Real-world validation of a multimodal LLM-powered pipeline for High-Accuracy Clinical Trial Patient Matching leveraging EHR data はコメントを受け付けていません

Bloated Disclosures: Can ChatGPT Help Investors Process Information?

要約

CHATGPTなどの生成AIツールは、投資家が情報を処理する方法を根本的に変更できます。
株式市場を実験室として使用して、複雑な企業の開示を要約する際に、これらのツールの経済的有用性を調査します。
制約のない要約は、オリジナルと比較して非常に短くなりますが、情報コンテンツは増幅されます。
ドキュメントに肯定的な(否定的な)感情がある場合、その要約はより肯定的になります(否定的)。
重要なことに、概要は、開示された情報に対する株式市場の反応を説明するのに効果的です。
これらの調査結果に動機付けられて、私たちは情報「Bloat」の尺度を提案します。
肥大化した開示は、価格効率の低下や情報の非対称性の高いなど、資本市場の悪影響に関連していることを示しています。
最後に、モデルが企業の(非)財務パフォーマンスを識別するターゲットサマリを構築するのに効果的であることを示します。
集合的に、我々の結果は、生成AIが情報処理の制約を備えた投資家にかなりの価値を追加することを示しています。

要約(オリジナル)

Generative AI tools such as ChatGPT can fundamentally change the way investors process information. We probe the economic usefulness of these tools in summarizing complex corporate disclosures using the stock market as a laboratory. The unconstrained summaries are remarkably shorter compared to the originals, whereas their information content is amplified. When a document has a positive (negative) sentiment, its summary becomes more positive (negative). Importantly, the summaries are more effective at explaining stock market reactions to the disclosed information. Motivated by these findings, we propose a measure of information “bloat.’ We show that bloated disclosure is associated with adverse capital market consequences, such as lower price efficiency and higher information asymmetry. Finally, we show that the model is effective at constructing targeted summaries that identify firms’ (non-)financial performance. Collectively, our results indicate that generative AI adds considerable value for investors with information processing constraints.

arxiv情報

著者 Alex Kim,Maximilian Muhn,Valeri Nikolaev
発行日 2025-03-19 16:22:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, econ.GN, q-fin.EC, q-fin.GN | Bloated Disclosures: Can ChatGPT Help Investors Process Information? はコメントを受け付けていません

CCDP: Composition of Conditional Diffusion Policies with Guided Sampling

要約

模倣学習は、明示的なモデル、シミュレーション、または詳細なタスク定義を必要とせずに、データから直接学習するための有望なアプローチを提供します。
推論中、アクションは学習された分布からサンプリングされ、ロボットで実行されます。
ただし、サンプリングされたアクションはさまざまな理由で失敗する可能性があり、成功したアクションが得られるまでサンプリングステップを繰り返すことは非効率的です。
この作業では、サンプリングの分布を改良して、以前に失敗したアクションを避けるためのサンプリング分布を改善する強化されたサンプリング戦略を提案します。
成功したデモンストレーションからのデータのみを使用することで、私たちの方法は、追加の探索的行動や高レベルのコントローラーを必要とせずに回復アクションを推測できることを実証します。
さらに、拡散モデル分解の概念を活用して、主要な問題(長期歴史が障害を管理するために必要な場合があります)を分解して、学習、データ収集、および推論において、より小さくて管理しやすいサブプロフェンスになり、システムがさまざまな障害カウントに適応できるようにします。
私たちのアプローチは、サンプリングスペースを動的に調整して、以前のサンプルが不足しているときに効率を改善する低レベルのコントローラーを生成します。
未知の方向、オブジェクト操作、ボタン検索シナリオを備えたドア開口部など、いくつかのタスクにわたってメソッドを検証し、私たちのアプローチが従来のベースラインよりも優れていることを示しています。

要約(オリジナル)

Imitation Learning offers a promising approach to learn directly from data without requiring explicit models, simulations, or detailed task definitions. During inference, actions are sampled from the learned distribution and executed on the robot. However, sampled actions may fail for various reasons, and simply repeating the sampling step until a successful action is obtained can be inefficient. In this work, we propose an enhanced sampling strategy that refines the sampling distribution to avoid previously unsuccessful actions. We demonstrate that by solely utilizing data from successful demonstrations, our method can infer recovery actions without the need for additional exploratory behavior or a high-level controller. Furthermore, we leverage the concept of diffusion model decomposition to break down the primary problem (which may require long-horizon history to manage failures) into multiple smaller, more manageable sub-problems in learning, data collection, and inference, thereby enabling the system to adapt to variable failure counts. Our approach yields a low-level controller that dynamically adjusts its sampling space to improve efficiency when prior samples fall short. We validate our method across several tasks, including door opening with unknown directions, object manipulation, and button-searching scenarios, demonstrating that our approach outperforms traditional baselines.

arxiv情報

著者 Amirreza Razmjoo,Sylvain Calinon,Michael Gienger,Fan Zhang
発行日 2025-03-19 16:24:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | CCDP: Composition of Conditional Diffusion Policies with Guided Sampling はコメントを受け付けていません

From Transcripts to Insights: Uncovering Corporate Risks Using Generative AI

要約

投資家が企業リスクの側面を明らかにするのを支援する際に、ChatGptなどの生成AIツールの価値を調査します。
政治的、気候、およびAI関連のリスクへのリスク暴露の企業レベルの測定を開発および検証します。
GPT 3.5モデルを使用して、収益コールトランスクリプトによって提供されるコンテキストからリスクの概要と評価を生成すると、GPTベースの測定値が重要な情報コンテンツを所有し、投資やイノベーションなどの企業レベルのボラティリティと企業の選択を予測する既存のリスク測定を上回ることを示します。
重要なことに、リスク評価の情報は、リスクの要約では、一般的なAI知識の価値を確立することを支配しています。
また、生成AIは、最近の四半期に急上昇しているAIリスクなどの新たなリスクを検出するのに効果的であることがわかります。
私たちの対策は、GPTのトレーニングウィンドウの内外でうまく機能し、株式市場で価格設定されています。
まとめると、リスク測定へのAIベースのアプローチは、企業開示のユーザーに低コストで有用な洞察を提供します。

要約(オリジナル)

We explore the value of generative AI tools, such as ChatGPT, in helping investors uncover dimensions of corporate risk. We develop and validate firm-level measures of risk exposure to political, climate, and AI-related risks. Using the GPT 3.5 model to generate risk summaries and assessments from the context provided by earnings call transcripts, we show that GPT-based measures possess significant information content and outperform the existing risk measures in predicting (abnormal) firm-level volatility and firms’ choices such as investment and innovation. Importantly, information in risk assessments dominates that in risk summaries, establishing the value of general AI knowledge. We also find that generative AI is effective at detecting emerging risks, such as AI risk, which has soared in recent quarters. Our measures perform well both within and outside the GPT’s training window and are priced in equity markets. Taken together, an AI-based approach to risk measurement provides useful insights to users of corporate disclosures at a low cost.

arxiv情報

著者 Alex Kim,Maximilian Muhn,Valeri Nikolaev
発行日 2025-03-19 16:25:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, econ.GN, q-fin.EC | From Transcripts to Insights: Uncovering Corporate Risks Using Generative AI はコメントを受け付けていません

Speculate, then Collaborate: Fusing Knowledge of Language Models during Decoding

要約

多くの場合、大規模な言語モデル(LLM)は特定のドメインで優れていますが、トレーニングの限界のために他のドメインでは不足しています。
したがって、LLMが補完的な知識を統合することにより、ドメイン全体のパフォーマンスを改善することにより、問題を共同で解決できるようにします。
この可能性を実現するために、追加のモデルトレーニングを必要とせずにテスト時に効率的なLLM知識融合を可能にする新しい共同投機的デコード(COSD)アルゴリズムを導入します。
COSDは、ドラフトモデルを使用して、初期シーケンスと学習しやすいルールまたは決定ツリーを生成して、これらのドラフトを改善するためにアシスタントモデルを呼び出すタイミングを決定します。
COSDは、知識の融合を強化するだけでなく、推論効率を改善し、ドメインとモデル間で転送可能であり、より大きな説明可能性を提供します。
実験結果は、COSDが既存の方法と比較してベンチマーク全体で最大10 \%の精度を向上させ、LLMベースのアプリケーションにスケーラブルで効果的なソリューションを提供することを示しています。

要約(オリジナル)

Large Language Models (LLMs) often excel in specific domains but fall short in others due to the limitations of their training. Thus, enabling LLMs to solve problems collaboratively by integrating their complementary knowledge promises to improve their performance across domains. To realize this potential, we introduce a novel Collaborative Speculative Decoding (CoSD) algorithm that enables efficient LLM knowledge fusion at test time without requiring additional model training. CoSD employs a draft model to generate initial sequences and an easy-to-learn rule or decision tree to decide when to invoke an assistant model to improve these drafts. CoSD not only enhances knowledge fusion but also improves inference efficiency, is transferable across domains and models, and offers greater explainability. Experimental results demonstrate that CoSD improves accuracy by up to 10\% across benchmarks compared to existing methods, providing a scalable and effective solution for LLM-based applications

arxiv情報

著者 Ziyao Wang,Muneeza Azmat,Ang Li,Raya Horesh,Mikhail Yurochkin
発行日 2025-03-19 16:26:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Speculate, then Collaborate: Fusing Knowledge of Language Models during Decoding はコメントを受け付けていません

Predictable Scale: Part I — Optimal Hyperparameter Scaling Law in Large Language Model Pretraining

要約

多様なタスクにわたる大規模な言語モデル(LLM)の印象的な機能は現在確立されていますが、それらの効果的な展開には慎重なハイパーパラメーターの最適化が必要です。
多様な構成全体のグリッド検索を含む広範な経験的研究を通じて、これらのハイパーパラメーターを管理するユニバーサルスケーリング法則を発見します。最適な学習レートは、モデルパラメーターとデータサイズの両方とのパワーロー関係に従いますが、最適なバッチサイズは主にデータサイズでスケーリングします。
私たちの分析により、固定モデルとデータサイズの条件下でのハイパーパラメーターの凸状の最適化ランドスケープが明らかになりました。
この凸性は、最適なハイパーパラメータープラトーを意味します。
コミュニティに普遍的でプラグアンドプレイの最適なハイパーパラメーターツールを提供しています。
テストセットの推定値は、徹底的な検索で見つかった世界的に最適なLLMパフォーマンスからわずか0.09%離れています。
これらの法則は、モデルの球位、トレーニングデータ分布、モデルの形状の変動にわたる顕著な堅牢性を示しています。
私たちの最もよく知られている人にとって、これは、混合物モデルや密な変圧器など、さまざまなモデルの形状と構造を統一し、多様なデータ分布全体で最適なハイパーパラメータースケーリング法則を確立する最初の作業です。
この徹底的な最適化プロセスには、約100万個のNVIDIA H800 GPU時間を利用して、3,700 LLMのさまざまなサイズとハイパーパラメーターをゼロから訓練し、合計で約100兆個のトークンを消費するかなりの計算リソースを必要とします。
再現性とさらなる研究を促進するために、指定されたリポジトリhttps://step-law.github.io/を介してすべての損失測定とモデルチェックポイントを徐々にリリースします。

要約(オリジナル)

The impressive capabilities of Large Language Models (LLMs) across diverse tasks are now well-established, yet their effective deployment necessitates careful hyperparameter optimization. Through extensive empirical studies involving grid searches across diverse configurations, we discover universal scaling laws governing these hyperparameters: optimal learning rate follows a power-law relationship with both model parameters and data sizes, while optimal batch size scales primarily with data sizes. Our analysis reveals a convex optimization landscape for hyperparameters under fixed models and data size conditions. This convexity implies an optimal hyperparameter plateau. We contribute a universal, plug-and-play optimal hyperparameter tool for the community. Its estimated values on the test set are merely 0.09% away from the globally optimal LLM performance found via an exhaustive search. These laws demonstrate remarkable robustness across variations in model sparsity, training data distribution, and model shape. To our best known, this is the first work that unifies different model shapes and structures, such as Mixture-of-Experts models and dense transformers, as well as establishes optimal hyperparameter scaling laws across diverse data distributions. This exhaustive optimization process demands substantial computational resources, utilizing nearly one million NVIDIA H800 GPU hours to train 3,700 LLMs of varying sizes and hyperparameters from scratch and consuming approximately 100 trillion tokens in total. To facilitate reproducibility and further research, we will progressively release all loss measurements and model checkpoints through our designated repository https://step-law.github.io/

arxiv情報

著者 Houyi Li,Wenzhen Zheng,Jingcheng Hu,Qiufeng Wang,Hanshan Zhang,Zili Wang,Shijie Xuyang,Yuantao Fan,Shuigeng Zhou,Xiangyu Zhang,Daxin Jiang
発行日 2025-03-19 16:28:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, F.2.2 | Predictable Scale: Part I — Optimal Hyperparameter Scaling Law in Large Language Model Pretraining はコメントを受け付けていません

Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering

要約

最近、強化学習(RL)は、大規模な言語モデル(LLM)の推論能力を大幅に強化することが示されており、RLベースのアプローチは視覚的なマルチモーダルタスクに徐々に適用されています。
ただし、これらの開発では、オーディオモダリティはほとんど見落とされています。
したがって、オーディオの理解と推論で一連のRL探索を実施し、特にオーディオ質問応答(AQA)タスクに焦点を当てています。
グループ相対ポリシー最適化(GRPO)アルゴリズムをQWEN2-AUDIO-7B-Instructに活用し、私たちの実験では、MMAUテストMINIベンチマークで最先端のパフォーマンスを実証し、64.5%の精度を達成しました。
この技術レポートの主な調査結果は次のとおりです。1)GRPOアルゴリズムは、モデルに8.2Bパラメーターしかない場合でも、大規模なオーディオ言語モデル(LALMS)に効果的に適用できます。
2)トレーニング後のサンプルはわずか38kで、RLは監視された微調整(SFT)を大幅に上回り、RLベースのアプローチが大規模なデータセットなしでは効果的であることを示しています。
3)明示的な推論プロセスは、AQAタスクに大きな利点を示していません。また、深い思考を効率的に利用する方法は、さらなる研究のための未解決の問題のままです。
4)ラームはまだ人間の聴覚言語の推論にはるかに遅れており、RLベースのアプローチがさらなる調査が必要であることを示唆しています。
当社のプロジェクトは、https://github.com/xiaomi-research/r1-aqaおよびhttps://huggingface.co/mispeech/r1-aqaで入手できます。

要約(オリジナル)

Recently, reinforcement learning (RL) has been shown to greatly enhance the reasoning capabilities of large language models (LLMs), and RL-based approaches have been progressively applied to visual multimodal tasks. However, the audio modality has largely been overlooked in these developments. Thus, we conduct a series of RL explorations in audio understanding and reasoning, specifically focusing on the audio question answering (AQA) task. We leverage the group relative policy optimization (GRPO) algorithm to Qwen2-Audio-7B-Instruct, and our experiments demonstrated state-of-the-art performance on the MMAU Test-mini benchmark, achieving an accuracy rate of 64.5%. The main findings in this technical report are as follows: 1) The GRPO algorithm can be effectively applied to large audio language models (LALMs), even when the model has only 8.2B parameters; 2) With only 38k post-training samples, RL significantly outperforms supervised fine-tuning (SFT), indicating that RL-based approaches can be effective without large datasets; 3) The explicit reasoning process has not shown significant benefits for AQA tasks, and how to efficiently utilize deep thinking remains an open question for further research; 4) LALMs still lag far behind humans auditory-language reasoning, suggesting that the RL-based approaches warrant further exploration. Our project is available at https://github.com/xiaomi-research/r1-aqa and https://huggingface.co/mispeech/r1-aqa.

arxiv情報

著者 Gang Li,Jizhong Liu,Heinrich Dinkel,Yadong Niu,Junbo Zhang,Jian Luan
発行日 2025-03-19 16:33:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | Reinforcement Learning Outperforms Supervised Fine-Tuning: A Case Study on Audio Question Answering はコメントを受け付けていません