Textbooks Are All You Need

要約

競合モデルよりも大幅にサイズが小さいコード用の新しい大規模言語モデルである phi-1 を紹介します。phi-1 は 1.3B パラメーターを持つ Transformer ベースのモデルで、8 台の A100 で 4 日間トレーニングされ、「」の選択を使用します。
Web からの教科書品質のデータ (6B トークン)、および GPT-3.5 で合成的に生成された教科書と演習 (1B トークン)。
この小規模にもかかわらず、phi-1 は HumanEval で 50.6%、MBPP で 55.5% の pass@1 精度を達成しています。
また、コーディング演習のデータセットの微調整段階前のモデルである phi-1-base や、phi-1 と同じパイプラインでトレーニングされた 3 億 5,000 万個のパラメーターを持つ小型モデルである phi-1-small と比較すると、驚くべき創発特性も表示されます。
HumanEval では依然として 45% を達成しています。

要約(オリジナル)

We introduce phi-1, a new large language model for code, with significantly smaller size than competing models: phi-1 is a Transformer-based model with 1.3B parameters, trained for 4 days on 8 A100s, using a selection of “textbook quality’ data from the web (6B tokens) and synthetically generated textbooks and exercises with GPT-3.5 (1B tokens). Despite this small scale, phi-1 attains pass@1 accuracy 50.6% on HumanEval and 55.5% on MBPP. It also displays surprising emergent properties compared to phi-1-base, our model before our finetuning stage on a dataset of coding exercises, and phi-1-small, a smaller model with 350M parameters trained with the same pipeline as phi-1 that still achieves 45% on HumanEval.

arxiv情報

著者 Suriya Gunasekar,Yi Zhang,Jyoti Aneja,Caio César Teodoro Mendes,Allie Del Giorno,Sivakanth Gopi,Mojan Javaheripi,Piero Kauffmann,Gustavo de Rosa,Olli Saarikivi,Adil Salim,Shital Shah,Harkirat Singh Behl,Xin Wang,Sébastien Bubeck,Ronen Eldan,Adam Tauman Kalai,Yin Tat Lee,Yuanzhi Li
発行日 2023-06-20 16:14:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク