要約
大規模な言語モデルで複雑な推論がどのように現れるかについての理解に挑戦する根本的な発見を提示します。
従来の知恵は、洗練された推論タスクには広範なトレーニングデータ(100,000を超える例)が必要であることを示唆していますが、驚くほど少数の例で複雑な数学的推論能力を効果的に誘発できることを示しています。
包括的な実験を通じて、提案されたモデルリムジンは、数学的推論における前例のないパフォーマンスを示しています。
わずか817のキュレーショントレーニングサンプルで、LimoはAIMEで57.1%の精度と数学で94.8%を達成し、以前のSFTベースのモデル「6.5%と59.2%からそれぞれ改善し、以前のアプローチで必要なトレーニングデータの1%のみを使用しています。
Limoは、分散型の並外れた一般化を実証し、10の多様なベンチマークで40.5%の絶対的な改善を達成し、100倍のデータで訓練されたモデルを上回るモデルを上回り、SFTが一般化ではなく暗記につながるという概念に挑戦します。
これらの結果に基づいて、私たちは、それほど少ない推論仮説(リムジン仮説)を提案します。ドメインの知識がトレーニング前に包括的にエンコードされている基礎モデルでは、認知プロセスの最小限であるが正確にオーケストレーションされた実証によって出現する可能性があります。
この仮説は、複雑な推論の誘発しきい値が2つの重要な要因によって決定されると仮定しています。(1)トレーニング前のモデルのエンコードされた知識基礎の完全性、および(2)トレーニング後の例が「認知テンプレート」としての有効性を「
モデルに、知識ベースを利用して複雑な推論タスクを解決する方法を示します。
データ効率の高い推論における再現性と将来の研究を促進するために、https://github.com/gair-nlp/limoで包括的なオープンソーススイートとしてLimoをリリースします。
要約(オリジナル)
We present a fundamental discovery that challenges our understanding of how complex reasoning emerges in large language models. While conventional wisdom suggests that sophisticated reasoning tasks demand extensive training data (>100,000 examples), we demonstrate that complex mathematical reasoning abilities can be effectively elicited with surprisingly few examples. Through comprehensive experiments, our proposed model LIMO demonstrates unprecedented performance in mathematical reasoning. With merely 817 curated training samples, LIMO achieves 57.1% accuracy on AIME and 94.8% on MATH, improving from previous SFT-based models’ 6.5% and 59.2% respectively, while only using 1% of the training data required by previous approaches. LIMO demonstrates exceptional out-of-distribution generalization, achieving 40.5% absolute improvement across 10 diverse benchmarks, outperforming models trained on 100x more data, challenging the notion that SFT leads to memorization rather than generalization. Based on these results, we propose the Less-Is-More Reasoning Hypothesis (LIMO Hypothesis): In foundation models where domain knowledge has been comprehensively encoded during pre-training, sophisticated reasoning capabilities can emerge through minimal but precisely orchestrated demonstrations of cognitive processes. This hypothesis posits that the elicitation threshold for complex reasoning is determined by two key factors: (1) the completeness of the model’s encoded knowledge foundation during pre-training, and (2) the effectiveness of post-training examples as ‘cognitive templates’ that show the model how to utilize its knowledge base to solve complex reasoning tasks. To facilitate reproducibility and future research in data-efficient reasoning, we release LIMO as a comprehensive open-source suite at https://github.com/GAIR-NLP/LIMO.
arxiv情報
著者 | Yixin Ye,Zhen Huang,Yang Xiao,Ethan Chern,Shijie Xia,Pengfei Liu |
発行日 | 2025-02-05 17:23:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google