要約
大規模言語モデル (LLM) の数学的推論能力の向上は最近進んでいますが、外部ツールを使用せずに競技レベルの数学問題を解決することは、オープンソース LLM にとって依然として困難です。
この研究では、基本モデルに優れた数学的推論スキルを装備するために、処理された Web データと合成質問と応答のペアを組み合わせた MMIQC データセットを導入します。
MMIQC 上で Mistral-7B(arXiv:2310.06825) を微調整して得られたモデルである Mistral-7B-MMIQC は、MATH(arXiv:2103.03874) で 36.0\% の精度を達成し、以前のモデル (モデル サイズ $\sim) より 5.8\% 向上しました。
70億ドル) SOTA。
私たちの実験では、改善の大部分が新しい拡張メソッド IQC (反復質問作成) によるものであることも示しています。この方法では、LLM に、指定されたシード問題から新しい質問を作成し、別の LLM から拒否サンプリングを行うよう繰り返し依頼します。
MMIQC は https://huggingface.co/datasets/Vivacem/MMIQC でリリースされました。
要約(オリジナル)
Despite recent progress in improving the mathematical reasoning ability of large language models(LLMs), solving competition-level math problems without the use of external tools remains challenging for open-source LLMs. In this work, we introduce the MMIQC dataset, a mixture of processed web data and synthetic question-response pairs, to equip base models with better mathematical reasoning skills. Mistral-7B-MMIQC, the model obtained by fine-tuning Mistral-7B(arXiv:2310.06825) on MMIQC, achieves 36.0\% accuracy on MATH(arXiv:2103.03874), 5.8\% higher than the previous (model size $\sim$7B) SOTA. Our experiments also show that a large part of the improvement attributes to our novel augmentation method IQC(Iterative Question Composing), where we iteratively ask an LLM to compose new questions from the given seed problems and do rejection sampling from another LLM. MMIQC has now been released on https://huggingface.co/datasets/Vivacem/MMIQC.
arxiv情報
著者 | Haoxiong Liu,Andrew Chi-Chih Yao |
発行日 | 2024-01-17 06:48:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google