SRA-MCTS: Self-driven Reasoning Augmentation with Monte Carlo Tree Search for Code Generation

要約

大規模な言語モデルは、単純なコード生成タスクでは優れたパフォーマンスを示しますが、複雑な問題に取り組む際には依然として課題に直面しています。
これらの課題は、推論能力と問題分解能力が不十分なことが原因である可能性があります。
この問題に対処するために、モデルが高品質の中間推論パスを自律的に生成するように導く推論拡張データ生成プロセスである SRA-MCTS を提案します。
これにより正のフィードバック ループが形成され、継続的な改善が可能になります。
私たちの方法は、追加の監視を必要とせず、完全にモデル自体を通じて動作します。
このアプローチでは、自然言語推論パスを合成し、実行可能なコードに変換することで、分析の精度を確保し、複雑なタスクの解決の成功率を高めます。
実験結果は、追加の監視信号がなくても、私たちの方法がさまざまなモデルスケールにわたってパフォーマンスの向上を達成することを示し、小規模モデルにおける自己改善の大きな可能性を実証しています。
さらに、従来の思考連鎖 (CoT) アプローチがパフォーマンスの低下を示した場合でも、この方法は堅牢なままであり、pass@10 などのダイバーシティ メトリックで顕著な改善が観察されます。
複雑な問題に対処する言語モデルの能力を強化するために、トレーニング データ内の推論プロセスをさらに調査することをお勧めします。

要約(オリジナル)

Large language models demonstrate exceptional performance in simple code generation tasks but still face challenges in tackling complex problems. These challenges may stem from insufficient reasoning and problem decomposition capabilities. To address this issue, we propose a reasoning-augmented data generation process, SRA-MCTS, which guides the model to autonomously generate high-quality intermediate reasoning paths. This creates a positive feedback loop, enabling continuous improvement. Our method operates entirely through the model itself without requiring additional supervision. By synthesizing natural language reasoning paths and translating them into executable code, the approach ensures analytical accuracy and enhances the success rate in solving complex tasks. Experimental results show that, even without additional supervisory signals, our method achieves performance improvements across different model scales, demonstrating the significant potential of self-improvement in small models. Furthermore, the method remains robust when traditional Chain-of-Thought (CoT) approaches exhibit performance degradation, with notable improvements observed in diversity metrics such as pass@10. We encourage further exploration of reasoning processes within training data to enhance the ability of language models to address complex problems.

arxiv情報

著者 Bin Xu,Yiguan Lin,Yinghao Li,Yang Gao
発行日 2024-11-21 06:01:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク