要約
競合モデルよりも大幅にサイズが小さいコード用の新しい大規模言語モデルである phi-1 を紹介します。phi-1 は 1.3B パラメーターを持つ Transformer ベースのモデルで、8 台の A100 で 4 日間トレーニングされ、「」の選択を使用します。
Web からの教科書品質のデータ (6B トークン)、および GPT-3.5 で合成的に生成された教科書と演習 (1B トークン)。
この小規模にもかかわらず、phi-1 は HumanEval で 50.6%、MBPP で 55.5% の pass@1 精度を達成しています。
また、コーディング演習のデータセットの微調整段階前のモデルである phi-1-base や、phi-1 と同じパイプラインでトレーニングされた 3 億 5,000 万個のパラメーターを持つ小型モデルである phi-1-small と比較すると、驚くべき創発特性も表示されます。
HumanEval では依然として 45% を達成しています。
要約(オリジナル)
We introduce phi-1, a new large language model for code, with significantly smaller size than competing models: phi-1 is a Transformer-based model with 1.3B parameters, trained for 4 days on 8 A100s, using a selection of “textbook quality’ data from the web (6B tokens) and synthetically generated textbooks and exercises with GPT-3.5 (1B tokens). Despite this small scale, phi-1 attains pass@1 accuracy 50.6% on HumanEval and 55.5% on MBPP. It also displays surprising emergent properties compared to phi-1-base, our model before our finetuning stage on a dataset of coding exercises, and phi-1-small, a smaller model with 350M parameters trained with the same pipeline as phi-1 that still achieves 45% on HumanEval.
arxiv情報
著者 | Suriya Gunasekar,Yi Zhang,Jyoti Aneja,Caio César Teodoro Mendes,Allie Del Giorno,Sivakanth Gopi,Mojan Javaheripi,Piero Kauffmann,Gustavo de Rosa,Olli Saarikivi,Adil Salim,Shital Shah,Harkirat Singh Behl,Xin Wang,Sébastien Bubeck,Ronen Eldan,Adam Tauman Kalai,Yin Tat Lee,Yuanzhi Li |
発行日 | 2023-10-02 06:12:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google