要約
自己無撞着やBest-of-Nなどの現在の推論スケーリング手法は、複雑な推論タスクにおけるLLMの精度を向上させるのに効果的であることが証明されている。しかし、これらの手法は候補回答の品質に大きく依存しており、全ての候補が不正解である場合に正しい解答を導くことができない。本論文では、CoT推論を活用し、すべての候補回答に欠陥がある場合でも、複数の候補回答から相補的な情報を分析することで、より優れた回答を合成する、新しい推論スケーリング戦略、CoTベースシンセサイザを提案する。軽量でコスト効率の良い実装を可能にするため、多様な学習データを作成する自動データ生成パイプラインを導入する。これにより、このデータで訓練されたより小さなLLMが、APIベースのLLMを含むより大きなモデルの推論精度を向上させることができる。7つの政策モデルを用いた4つのベンチマークデータセットにおける実験結果は、我々の手法が大幅に性能を向上させることを示しており、MATHデータセットではLlama3-8Bで11.8%、GPT-4oで10.3%の向上が見られた。対応するトレーニングデータとコードはhttps://github.com/RUCKBReasoning/CoT-based-Synthesizer。
要約(オリジナル)
Current inference scaling methods, such as Self-consistency and Best-of-N, have proven effective in improving the accuracy of LLMs on complex reasoning tasks. However, these methods rely heavily on the quality of candidate responses and are unable to produce correct answers when all candidates are incorrect. In this paper, we propose a novel inference scaling strategy, CoT-based Synthesizer, which leverages CoT reasoning to synthesize superior answers by analyzing complementary information from multiple candidate responses, even when all candidate responses are flawed. To enable a lightweight and cost-effective implementation, we introduce an automated data generation pipeline that creates diverse training data. This allows smaller LLMs trained on this data to improve the inference accuracy of larger models, including API-based LLMs. Experimental results across four benchmark datasets with seven policy models demonstrate that our method significantly enhances performance, with gains of 11.8% for Llama3-8B and 10.3% for GPT-4o on the MATH dataset. The corresponding training data and code are publicly available on https://github.com/RUCKBReasoning/CoT-based-Synthesizer.
arxiv情報
著者 | Bohan Zhang,Xiaokang Zhang,Jing Zhang,Jifan Yu,Sijia Luo,Jie Tang |
発行日 | 2025-01-03 06:50:06+00:00 |
arxivサイト | arxiv_id(pdf) |