要約
大規模な推論モデル(LRMS)は、既に長い考え方の推論のために潜在能力を持っています。
以前の研究では、結果に基づく強化学習(RL)が、モデルの「AHAの瞬間」と呼ばれることが多いことが多い自己修正、バックトラッキング、検証現象などの高度な推論行動を偶然引き出すことができることが示されています。
ただし、これらの緊急行動のタイミングと一貫性は、LRMSの推論能力のスケーラビリティと信頼性を制限する予測不可能で制御不能のままです。
これらの制限に対処するために、私たちはプロンプトと偶然の「ahaの瞬間」への依存を超えて移動します。
代わりに、モデルを自動的に生成された自己検証可能なタスクを使用して、モデルを控除、誘導、および誘ductionの3つのメタ機能と明示的に整列させます。
3つのステージパイプラインの個々のアライメント、パラメータースペースの合併、およびドメイン固有の補強学習は、命令チューニングベースラインと比較して10 \%を超えるパフォーマンスを高めます。
さらに、整列されたチェックポイントからドメイン固有のRLは、数学、コーディング、および科学ベンチマーク全体でパフォーマンス上限に2 \%の平均ゲインを追加し、明示的なメタ性アラインメントが推論のためのスケーラブルで信頼できる基盤を提供することを示しています。
コードは、https://github.com/zhiyuanhubj/meta-ability-alignmentで入手できます
要約(オリジナル)
Large reasoning models (LRMs) already possess a latent capacity for long chain-of-thought reasoning. Prior work has shown that outcome-based reinforcement learning (RL) can incidentally elicit advanced reasoning behaviors such as self-correction, backtracking, and verification phenomena often referred to as the model’s ‘aha moment’. However, the timing and consistency of these emergent behaviors remain unpredictable and uncontrollable, limiting the scalability and reliability of LRMs’ reasoning capabilities. To address these limitations, we move beyond reliance on prompts and coincidental ‘aha moments’. Instead, we explicitly align models with three meta-abilities: deduction, induction, and abduction, using automatically generated, self-verifiable tasks. Our three stage-pipeline individual alignment, parameter-space merging, and domain-specific reinforcement learning, boosting performance by over 10\% relative to instruction-tuned baselines. Furthermore, domain-specific RL from the aligned checkpoint yields an additional 2\% average gain in the performance ceiling across math, coding, and science benchmarks, demonstrating that explicit meta-ability alignment offers a scalable and dependable foundation for reasoning. Code is available at: https://github.com/zhiyuanhubj/Meta-Ability-Alignment
arxiv情報
著者 | Zhiyuan Hu,Yibo Wang,Hanze Dong,Yuhui Xu,Amrita Saha,Caiming Xiong,Bryan Hooi,Junnan Li |
発行日 | 2025-05-15 17:58:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google