要約
数学的推論のための大規模言語モデル (LLM) が進歩しているにもかかわらず、競技レベルの数学問題を解決することは、特に外部ツールを持たないオープンソース LLM にとって、依然として大きな課題です。
基本言語モデルの数学的推論機能を強化することを目的とした、処理された Web データと合成の質問と応答のペアの混合で構成される MMIQC データセットを紹介します。
MMIQC で微調整されたモデルは、さまざまなモデル サイズにわたって、MATH ベンチマークのパフォーマンスにおいて常に対応モデルを上回っています。
特に、Qwen-72B-MMIQC は 45.0% の精度を達成しており、以前のオープンソースの最先端技術を 8.2% 上回り、2023 年にリリースされた初期バージョン GPT-4 を上回っています。ハンガリーの高校決勝戦に関する広範な評価結果は、それを示唆しています。
このような改善は、目に見えないデータにも一般化できると考えられます。
MMIQC に関するアブレーション研究により、改善の大部分は、LLM を使用してシード問題から新しい質問を繰り返し作成し、別の LLM を介して拒否サンプリングを適用することを含む、新しい拡張手法である反復質問作成 (IQC) によるものであることが明らかになりました。
MMIQC データセットは、HuggingFace ハブ (https://huggingface.co/datasets/Vivacem/MMIQC) で入手できます。
私たちのコードは https://github.com/iiis-ai/IterativeQuestionComposing で入手できます。
要約(オリジナル)
Despite the advancements in large language models (LLMs) for mathematical reasoning, solving competition-level math problems remains a significant challenge, especially for open-source LLMs without external tools. We introduce the MMIQC dataset, comprising a mixture of processed web data and synthetic question-response pairs, aimed at enhancing the mathematical reasoning capabilities of base language models. Models fine-tuned on MMIQC consistently surpass their counterparts in performance on the MATH benchmark across various model sizes. Notably, Qwen-72B-MMIQC achieves a 45.0% accuracy, exceeding the previous open-source state-of-the-art by 8.2% and outperforming the initial version GPT-4 released in 2023. Extensive evaluation results on Hungarian high school finals suggest that such improvement can generalize to unseen data. Our ablation study on MMIQC reveals that a large part of the improvement can be attributed to our novel augmentation method, Iterative Question Composing (IQC), which involves iteratively composing new questions from seed problems using an LLM and applying rejection sampling through another LLM. The MMIQC dataset is available on the HuggingFace hub at https://huggingface.co/datasets/Vivacem/MMIQC. Our code is available at https://github.com/iiis-ai/IterativeQuestionComposing.
arxiv情報
著者 | Haoxiong Liu,Yifan Zhang,Yifan Luo,Andrew Chi-Chih Yao |
発行日 | 2024-01-30 15:29:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google