要約
大規模な言語モデルは多くのタスクで優れていますが、それでも一貫した堅牢な推論に苦労しています。
共有されたプログラム抽象化から導き出された同様の質問のコホートに関するトレーニングによりLLM推論の信頼性を改善する強化学習フレームワークであるコホートベースの一貫性学習(CC-Learn)を紹介します。
コホートレベルの一貫性を実施するために、コホートの精度を組み合わせた複合客観的なボーナス、効果的な問題分解のための検索ボーナス、および補強学習が監視された微調整とは違って直接最適化できる些細なまたは無効な検索の拒絶ペナルティを定義します。
この報酬の最適化は、すべてのコホートメンバーに均一な推論パターンを採用するためにモデルをガイドします。
挑戦的な推論ベンチマーク(ARC-ChallengeおよびStrategyQAを含む)の実験は、CC-Learnが前提条件とSFTベースライン上の精度と推論の安定性の両方を高めることを示しています。
これらの結果は、コホートレベルのRLがLLMSの推論の一貫性を効果的に強化することを示しています。
要約(オリジナル)
Large language models excel at many tasks but still struggle with consistent, robust reasoning. We introduce Cohort-based Consistency Learning (CC-Learn), a reinforcement learning framework that improves the reliability of LLM reasoning by training on cohorts of similar questions derived from shared programmatic abstractions. To enforce cohort-level consistency, we define a composite objective combining cohort accuracy, a retrieval bonus for effective problem decomposition, and a rejection penalty for trivial or invalid lookups that reinforcement learning can directly optimize, unlike supervised fine-tuning. Optimizing this reward guides the model to adopt uniform reasoning patterns across all cohort members. Experiments on challenging reasoning benchmarks (including ARC-Challenge and StrategyQA) show that CC-Learn boosts both accuracy and reasoning stability over pretrained and SFT baselines. These results demonstrate that cohort-level RL effectively enhances reasoning consistency in LLMs.
arxiv情報
著者 | Xiao Ye,Shaswat Shrivastava,Zhaonan Li,Jacob Dineen,Shijie Lu,Avneet Ahuja,Ming Shen,Zhikun Xu,Ben Zhou |
発行日 | 2025-06-18 17:41:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google