要約
事前に訓練された大規模な言語モデルにおける長い考え方の推論能力をアクティブにするための実用的なアプローチは、DeepSeek-R1などの強力な大規模な推論モデルによって合成された指導データセットで監視された微調整を実行し、強化学習に代わる費用対効果の高い代替品を提供することです。
ただし、100Kを超えるサンプルを備えた大規模な命令セットは、オーバーヘッドの大幅なトレーニングを受けますが、自動ロングコット命令選択のための効果的な戦略はまだ未開拓のままです。
この作業では、select2reasonを提案します。これは、ロングコットの推論のための斬新で効率的な命令調整データ選択フレームワークです。
自己修正やバックトラッキングなどの再考行動の出現の観点から、私たちは長期コットの推論指示の質を決定する可能性のある一般的なメトリックを調査します。
Select2Reasonは、質問の難易度を推定するために数量ファイアを活用し、共同で高効性の例に優先順位を付けるためのランキングのための加重スキームを通じて推論の長さベースのヒューリスティックを組み込んでいます。
OpenR1-Math-220Kの経験的結果は、Select2Reasonが選択したデータの10%のみで微調整LLMが、フルデータのチューニングとオープンソースのベースラインOpenL1-QWEN-7Bとのパフォーマンス競争力のあるパフォーマンスを達成していることを示しています。
さらなる実験では、さまざまなデータサイズ、推論中の効率、およびコストが最小限の他の命令プールへの適応性のスケーラビリティを強調しています。
要約(オリジナル)
A practical approach to activate long chain-of-thoughts reasoning ability in pre-trained large language models is to perform supervised fine-tuning on instruction datasets synthesized by strong Large Reasoning Models such as DeepSeek-R1, offering a cost-effective alternative to reinforcement learning. However, large-scale instruction sets with more than 100k samples incur significant training overhead, while effective strategies for automatic long-CoT instruction selection still remain unexplored. In this work, we propose Select2Reason, a novel and efficient instruction-tuning data selection framework for long-CoT reasoning. From the perspective of emergence of rethinking behaviors like self-correction and backtracking, we investigate common metrics that may determine the quality of long-CoT reasoning instructions. Select2Reason leverages a quantifier to estimate difficulty of question and jointly incorporates a reasoning trace length-based heuristic through a weighted scheme for ranking to prioritize high-utility examples. Empirical results on OpenR1-Math-220k demonstrate that fine-tuning LLM on only 10% of the data selected by Select2Reason achieves performance competitive with or superior to full-data tuning and open-source baseline OpenR1-Qwen-7B across three competition-level and six comprehensive mathematical benchmarks. Further experiments highlight the scalability in varying data size, efficiency during inference, and its adaptability to other instruction pools with minimal cost.
arxiv情報
著者 | Cehao Yang,Xueyuan Lin,Chengjin Xu,Xuhui Jiang,Xiaojun Wu,Honghao Liu,Hui Xiong,Jian Guo |
発行日 | 2025-05-27 15:50:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google