Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models

要約

既存の大規模な言語モデル(LLM)は、特に複数の制約が存在し、並列、チェーン、分岐構造で編成されている場合、複雑な指示に従うことの課題に直面しています。
1つの直感的なソリューション、すなわちチェーンオブサート(COT)は、LLMの能力を普遍的に改善することが期待されています。
ただし、バニラCOTは、単に指示を言い換えるという表面的な推論パターンのために、パフォーマンスにマイナスの影響を与えることがわかります。
タイプと寸法の階層全体で彼らの関係を識別するための制約の構成を剥がすことができません。
この目的のために、テスト時間計算スケーリングの推論を奨励することにより、複雑な指示を扱う際にLLMSを高める体系的な方法を提案します。
まず、既存の分類法の下での複雑な命令の分解に起因し、再現可能なデータ収集方法を提案します。
第二に、検証可能なルール中心の報酬シグナルを使用して、強化学習(RL)を活用して、指示のために特に推論を育成します。
優れたCOT施行のためのサンプルごとのコントラストを介して、複雑な指示の下で推論の浅い非必須性質に対処します。
また、専門家の行動クローニングを活用して、速い考えのLLMSから熟練した推論者への着実な分布シフトを促進します。
7つの包括的なベンチマークでの広範な評価は、提案された方法の有効性を確認します。ここで、1.5B LLMは8B LLMに匹敵するパフォーマンスで11.74%の利益を得ています。
コードとデータはhttps://github.com/yuleiqin/raifで入手できます。

要約(オリジナル)

Existing large language models (LLMs) face challenges of following complex instructions, especially when multiple constraints are present and organized in paralleling, chaining, and branching structures. One intuitive solution, namely chain-of-thought (CoT), is expected to universally improve capabilities of LLMs. However, we find that the vanilla CoT exerts a negative impact on performance due to its superficial reasoning pattern of simply paraphrasing the instructions. It fails to peel back the compositions of constraints for identifying their relationship across hierarchies of types and dimensions. To this end, we propose a systematic method to boost LLMs in dealing with complex instructions via incentivizing reasoning for test-time compute scaling. First, we stem from the decomposition of complex instructions under existing taxonomies and propose a reproducible data acquisition method. Second, we exploit reinforcement learning (RL) with verifiable rule-centric reward signals to cultivate reasoning specifically for instruction following. We address the shallow, non-essential nature of reasoning under complex instructions via sample-wise contrast for superior CoT enforcement. We also exploit behavior cloning of experts to facilitate steady distribution shift from fast-thinking LLMs to skillful reasoners. Extensive evaluations on seven comprehensive benchmarks confirm the validity of the proposed method, where a 1.5B LLM achieves 11.74% gains with performance comparable to a 8B LLM. Codes and data are available at https://github.com/yuleiqin/RAIF.

arxiv情報

著者 Yulei Qin,Gang Li,Zongyi Li,Zihan Xu,Yuchen Shi,Zhekai Lin,Xiao Cui,Ke Li,Xing Sun
発行日 2025-06-12 13:57:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク