AutoMathText: Autonomous Data Selection with Language Models for Mathematical Texts

要約

継続的な事前トレーニングを通じて言語モデルの数学的推論の習熟度を向上させるために、自律的なデータ選択に基本言語モデルを活用する新しい戦略を導入します。
従来の教師付き微調整や、人間が注釈を付けたデータを使用したトレーニング済みの分類器から離れ、私たちのアプローチでは、メタプロンプト言語モデルをゼロショット検証器として利用して、高品質の数学的コンテンツを自律的に評価および選択し、厳選されたオープンソースの AutoMathText データセットをリリースします。
200GBを超えるデータが含まれます。
私たちの方法の有効性を実証するために、AutoMathText データセット上で 7B パラメーターの Mistral 言語モデルを継続的に事前トレーニングし、以前の連続的な事前トレーニング作業と比較してトークン量を桁違いに削減しながら、MATH データセットにおけるダウンストリーム パフォーマンスの大幅な向上を達成しました。
私たちの方法では、ベースラインと比較して事前トレーニング トークンの効率が 2 倍向上していることが示されており、モデルの数学的推論能力を強化する際の私たちのアプローチの可能性が強調されています。
AutoMathText データセットは、https://huggingface.co/datasets/math-ai/AutoMathText で入手できます。
コードは https://github.com/yifanzhang-pro/AutoMathText で入手できます。

要約(オリジナル)

To improve language models’ proficiency in mathematical reasoning via continual pretraining, we introduce a novel strategy that leverages base language models for autonomous data selection. Departing from conventional supervised fine-tuning or trained classifiers with human-annotated data, our approach utilizes meta-prompted language models as zero-shot verifiers to autonomously evaluate and select high-quality mathematical content, and we release the curated open-source AutoMathText dataset encompassing over 200GB of data. To demonstrate the efficacy of our method, we continuously pretrained a 7B-parameter Mistral language model on the AutoMathText dataset, achieving substantial improvements in downstream performance on the MATH dataset with a token amount reduced by orders of magnitude compared to previous continuous pretraining works. Our method showcases a 2 times increase in pretraining token efficiency compared to baselines, underscoring the potential of our approach in enhancing models’ mathematical reasoning capabilities. The AutoMathText dataset is available at https://huggingface.co/datasets/math-ai/AutoMathText. The code is available at https://github.com/yifanzhang-pro/AutoMathText.

arxiv情報

著者 Yifan Zhang,Yifan Luo,Yang Yuan,Andrew Chi-Chih Yao
発行日 2024-02-12 13:09:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク