要約
大規模な言語モデルは、単純なコード生成タスクで例外的なパフォーマンスを示していますが、複雑な問題に取り組む上で課題に直面しています。
これらの課題は、不十分な推論と問題の分解機能に起因する可能性があります。
この問題に対処するために、高品質の中間推論パスを自律的に生成するようにモデルを導く推論の高度化データ生成プロセスSRA-MCTSを提案します。
これにより、肯定的なフィードバックループが作成され、継続的な改善が可能になります。
私たちの方法は、追加の監督を必要とせずに、モデル自体を通して完全に動作します。
自然言語の推論パスを統合し、実行可能コードに変換することにより、このアプローチにより、分析の精度が保証され、複雑なタスクの解決の成功率が向上します。
実験結果は、追加の監督シグナルがなくても、私たちの方法が異なるモデルスケールにわたってパフォーマンスの改善を達成し、小さなモデルの自己改善の重要な可能性を示していることを示しています。
さらに、この方法は、従来のチェーンオブサート(COT)アプローチがパフォーマンスの劣化を示す場合、堅調なままです。
複雑な問題に対処するための言語モデルの能力を高めるために、トレーニングデータ内の推論プロセスのさらなる調査をお勧めします。
コードとデータはhttps://github.com/direct-bit/sra-mctsで公開されています。
要約(オリジナル)
Large language models demonstrate exceptional performance in simple code generation tasks but still face challenges in tackling complex problems. These challenges may stem from insufficient reasoning and problem decomposition capabilities. To address this issue, we propose a reasoning-augmented data generation process, SRA-MCTS, which guides the model to autonomously generate high-quality intermediate reasoning paths. This creates a positive feedback loop, enabling continuous improvement. Our method operates entirely through the model itself without requiring additional supervision. By synthesizing natural language reasoning paths and translating them into executable code, the approach ensures analytical accuracy and enhances the success rate in solving complex tasks. Experimental results show that, even without additional supervisory signals, our method achieves performance improvements across different model scales, demonstrating the significant potential of self-improvement in small models. Furthermore, the method remains robust when traditional Chain-of-Thought (CoT) approaches exhibit performance degradation, with notable improvements observed in diversity metrics such as pass@10. We encourage further exploration of reasoning processes within training data to enhance the ability of language models to address complex problems. Our code and data are public at https://github.com/DIRECT-BIT/SRA-MCTS.
arxiv情報
著者 | Bin Xu,Yiguan Lin,Yinghao Li,Yang Gao |
発行日 | 2025-05-09 07:24:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google