TinyGSM: achieving >80% on GSM8k with small language models

要約

小規模モデルにはさまざまな計算上の利点がありますが、問題解決能力にとってサイズがどの程度重要であるかは未解決の問題のままです。
特に小学校の算数を解く場合、GSM8K ベンチマークの 80\% の壁を突破するために必要なこれまでの最小モデル サイズは 34B のままです。
私たちの研究では、高品質のデータセットが小さな言語モデルが数学的推論を獲得するための鍵となる可能性を研究しています。
\texttt{TinyGSM} は、GPT-3.5 によって完全に生成された、Python ソリューションと組み合わせた 1,230 万の小学校の算数の問題の合成データセットです。
\texttt{TinyGSM} を微調整した後、1.3B 世代モデルと 1.3B 検証者モデルの組み合わせが 81.5\% の精度を達成でき、桁違いに大きい既存のモデルを上回るパフォーマンスを発揮できることがわかりました。
これは、モデルのトレーニング データが生成される GPT-3.5「教師」モデルのパフォーマンス (77.4\%) にも匹敵します。
私たちのアプローチはシンプルで、2 つの重要なコンポーネントがあります: 1) 高品質のデータセット \texttt{TinyGSM}、2) 複数の候補世代から最終出力を選択する検証器の使用。

要約(オリジナル)

Small-scale models offer various computational advantages, and yet to which extent size is critical for problem-solving abilities remains an open question. Specifically for solving grade school math, the smallest model size so far required to break the 80\% barrier on the GSM8K benchmark remains to be 34B. Our work studies how high-quality datasets may be the key for small language models to acquire mathematical reasoning. We introduce \texttt{TinyGSM}, a synthetic dataset of 12.3M grade school math problems paired with Python solutions, generated fully by GPT-3.5. After finetuning on \texttt{TinyGSM}, we find that a duo of a 1.3B generation model and a 1.3B verifier model can achieve 81.5\% accuracy, outperforming existing models that are orders of magnitude larger. This also rivals the performance of the GPT-3.5 “teacher” model (77.4\%), from which our model’s training data is generated. Our approach is simple and has two key components: 1) the high-quality dataset \texttt{TinyGSM}, 2) the use of a verifier, which selects the final outputs from multiple candidate generations.

arxiv情報

著者 Bingbin Liu,Sebastien Bubeck,Ronen Eldan,Janardhan Kulkarni,Yuanzhi Li,Anh Nguyen,Rachel Ward,Yi Zhang
発行日 2023-12-14 18:58:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク