1.4 Million Open-Source Distilled Reasoning Dataset to Empower Large Language Model Training

要約

Am-DeepSeek-R1-Distillは、高品質で挑戦的な推論問題で構成される一般的な推論タスクの考え方を備えた大規模なデータセットです。
これらの問題は、テストセットの汚染を排除するためにセマンティックな重複排除と綿密なクリーニングを受けた多数のオープンソースデータセットから収集されます。
データセット内のすべての応答は、推論モデル(主にDeepSeek-R1)から蒸留されており、厳密な検証手順を受けています。
数学的な問題は、参照回答に対してチェックすることによって検証され、コードの問題はテストケースを使用して検証され、他のタスクは報酬モデルの使用で評価されます。
このデータのバッチを使用して単純な監視付き微調整(SFT)でのみトレーニングされたAm-Distill-Qwen-32Bモデルは、4つのベンチマークでDeepSeek-R1-Distill-QWen-32Bモデルを上回りました:AIME2024、MATH-500、GPQA-Diamond、およびLivecodebench。
さらに、Am-Distill-Qwen-72Bモデルは、すべてのベンチマークでもDeepSeek-R1-Distill-Lalama-70Bモデルを上回りました。
強力な推論指向の大手言語モデル(LLM)の開発を促進する目的で、これらの140万の問題と研究コミュニティへの対応する反応をリリースしています。
データセットは、\ href {https://huggingface.co/datasets/a-m-team/am-deepseek-r1-distill-1.4m} {https://huggingface.co/datasets/a-m-team/am-deepseek-r1-distill-1.4m}に公開されました。

要約(オリジナル)

The AM-DeepSeek-R1-Distilled is a large-scale dataset with thinking traces for general reasoning tasks, composed of high-quality and challenging reasoning problems. These problems are collected from a multitude of open-source datasets, subjected to semantic deduplication and meticulous cleaning to eliminate test set contamination. All responses within the dataset are distilled from reasoning models (predominantly DeepSeek-R1) and have undergone rigorous verification procedures. Mathematical problems are validated by checking against reference answers, code problems are verified using test cases, and other tasks are evaluated with the aid of a reward model. The AM-Distill-Qwen-32B model, which was trained through only simple Supervised Fine-Tuning (SFT) using this batch of data, outperformed the DeepSeek-R1-Distill-Qwen-32B model on four benchmarks: AIME2024, MATH-500, GPQA-Diamond, and LiveCodeBench. Additionally, the AM-Distill-Qwen-72B model surpassed the DeepSeek-R1-Distill-Llama-70B model on all benchmarks as well. We are releasing these 1.4 million problems and their corresponding responses to the research community with the objective of fostering the development of powerful reasoning-oriented Large Language Models (LLMs). The dataset was published in \href{https://huggingface.co/datasets/a-m-team/AM-DeepSeek-R1-Distilled-1.4M}{https://huggingface.co/datasets/a-m-team/AM-DeepSeek-R1-Distilled-1.4M}.

arxiv情報

著者 Han Zhao,Haotian Wang,Yiping Peng,Sitong Zhao,Xiaoyu Tian,Shuaiting Chen,Yunjie Ji,Xiangang Li
発行日 2025-03-25 13:19:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク