要約
推論モデルは、数学、コード、科学を含む多くのベンチマークで急速に進歩しています。
しかし、最先端のモデルは、公開情報がほとんどまたはまったく利用できない独自のデータセットに依存しているため、推論に最適なトレーニングレシピについてまだ多くの未解決の質問があります。
これに対処するために、Openthoughtsプロジェクトの目標は、トレーニング推論モデルのためのオープンソースデータセットを作成することです。
最初の調査の後、OpentHoughts2-1MデータセットはOpenthinker2-32bにつながりました。これは、エイアイムやLiveCodebenchなどの標準的な推論ベンチマークでDeepSeek-R1-Distill-32Bを一致させるために公開された推論データで訓練された最初のモデルです。
次に、データ生成パイプラインの各ステップを1,000以上の制御実験で体系的に調査することにより、データセットをさらに改善し、それがOpentHoughts3につながりました。
パイプラインを1.2mの例にスケーリングし、教師としてQWQ-32Bを使用すると、Openthinker3-7Bモデルが得られます。これは、AIME 2025で53%、LiveCodebench 06/24-01/25で51%、GPQA径で54%を達成します。
すべてのデータセットとモデルは、https://openthoughts.aiで入手できます。
要約(オリジナル)
Reasoning models have made rapid progress on many benchmarks involving math, code, and science. Yet, there are still many open questions about the best training recipes for reasoning since state-of-the-art models often rely on proprietary datasets with little to no public information available. To address this, the goal of the OpenThoughts project is to create open-source datasets for training reasoning models. After initial explorations, our OpenThoughts2-1M dataset led to OpenThinker2-32B, the first model trained on public reasoning data to match DeepSeek-R1-Distill-32B on standard reasoning benchmarks such as AIME and LiveCodeBench. We then improve our dataset further by systematically investigating each step of our data generation pipeline with 1,000+ controlled experiments, which led to OpenThoughts3. Scaling the pipeline to 1.2M examples and using QwQ-32B as teacher yields our OpenThinker3-7B model, which achieves state-of-the-art results: 53% on AIME 2025, 51% on LiveCodeBench 06/24-01/25, and 54% on GPQA Diamond. All of our datasets and models are available on https://openthoughts.ai.
arxiv情報
著者 | Etash Guha,Ryan Marten,Sedrick Keh,Negin Raoof,Georgios Smyrnis,Hritik Bansal,Marianna Nezhurina,Jean Mercat,Trung Vu,Zayne Sprague,Ashima Suvarna,Benjamin Feuer,Liangyu Chen,Zaid Khan,Eric Frankel,Sachin Grover,Caroline Choi,Niklas Muennighoff,Shiye Su,Wanjia Zhao,John Yang,Shreyas Pimpalgaonkar,Kartik Sharma,Charlie Cheng-Jie Ji,Yichuan Deng,Sarah Pratt,Vivek Ramanujan,Jon Saad-Falcon,Jeffrey Li,Achal Dave,Alon Albalak,Kushal Arora,Blake Wulfe,Chinmay Hegde,Greg Durrett,Sewoong Oh,Mohit Bansal,Saadia Gabriel,Aditya Grover,Kai-Wei Chang,Vaishaal Shankar,Aaron Gokaslan,Mike A. Merrill,Tatsunori Hashimoto,Yejin Choi,Jenia Jitsev,Reinhard Heckel,Maheswaran Sathiamoorthy,Alexandros G. Dimakis,Ludwig Schmidt |
発行日 | 2025-06-04 17:25:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google