要約
数学的問題を解決するには高度な推論能力が必要であり、大規模な言語モデルには顕著な課題が生じます。
これまでの研究では通常、独自のモデルからデータを合成して既存のデータセットを強化し、その後、最高レベルの結果を達成するために命令を調整していました。
しかし、これらのデータセットの分析では、最も困難なクエリに対して正しい応答を生成できないことが頻繁にあり、簡単なクエリに対する深刻なバイアスが明らかになりました。
複雑な推論を学習するには難しいクエリが不可欠であるという仮説を立てて、合成段階で難しいクエリにより多くの試行を割り当て、難しいサンプルに対するより広範なトレーニングを可能にする方法である Difficulty-Aware Rejection Tuning (DART) を提案します。
DART を利用して、難しいクエリに重点を置き、以前のデータセットよりも大幅に小さい数学的問題解決用の新しいデータセットを作成しました。
注目すべきことに、私たちの合成プロセスは、一般的に使用されている独自の GPT-4 に依存せず、7B サイズのオープンウェイト モデルのみに依存しています。
サイズが 7B から 70B までのデータセットでさまざまなベース モデルを微調整し、DART-MATH と呼ばれる一連の強力なモデルを作成しました。
6 つの数学的ベンチマークに関するドメイン内およびドメイン外の包括的な評価において、DART-MATH は、はるかに小さいデータセットを使用し、独自のモデルを使用していないにもかかわらず、バニラ拒否チューニングを大幅に上回り、従来技術よりも優れているか、同等です。
さらに、私たちの結果は、私たちの合成データセットを、数学的問題解決を進めるための最も効果的でコスト効率の高い公的リソースとして位置づけています。
要約(オリジナル)
Solving mathematical problems requires advanced reasoning abilities and presents notable challenges for large language models. Previous works usually synthesize data from proprietary models to augment existing datasets, followed by instruction tuning to achieve top-tier results. However, our analysis of these datasets reveals severe biases towards easy queries, with frequent failures to generate any correct response for the most challenging queries. Hypothesizing that difficult queries are crucial to learn complex reasoning, we propose Difficulty-Aware Rejection Tuning (DART), a method that allocates difficult queries more trials during the synthesis phase, enabling more extensive training on difficult samples. Utilizing DART, we have created new datasets for mathematical problem-solving that focus more on difficult queries and are substantially smaller than previous ones. Remarkably, our synthesis process solely relies on a 7B-sized open-weight model, without reliance on the commonly used proprietary GPT-4. We fine-tune various base models on our datasets ranging from 7B to 70B in size, resulting in a series of strong models called DART-MATH. In comprehensive in-domain and out-of-domain evaluation on 6 mathematical benchmarks, DART-MATH outperforms vanilla rejection tuning significantly, being superior or comparable to previous arts, despite using much smaller datasets and no proprietary models. Furthermore, our results position our synthetic datasets as the most effective and cost-efficient publicly available resources for advancing mathematical problem-solving.
arxiv情報
著者 | Yuxuan Tong,Xiwen Zhang,Rui Wang,Ruidong Wu,Junxian He |
発行日 | 2024-12-23 17:32:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google