Llemma: An Open Language Model For Mathematics

要約

数学の大規模言語モデルLlemmaを紹介する。科学論文、数学を含むウェブデータ、数学コードの混合物であるProof-Pile-2でCode Llamaの事前学習を継続し、Llemmaを得た。MATHベンチマークにおいて、Llemmaは既知のすべてのオープンベースモデル、および未発表のMinervaモデルスイートを等パラメータベースで凌駕している。さらに、Llemmaは、これ以上の微調整なしに、ツールの使用と正式な定理証明が可能である。我々は、70億および340億パラメータモデル、Proof-Pile-2、および我々の実験を再現するコードを含むすべての成果物をオープンに公開する。

要約(オリジナル)

We present Llemma, a large language model for mathematics. We continue pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web data containing mathematics, and mathematical code, yielding Llemma. On the MATH benchmark Llemma outperforms all known open base models, as well as the unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is capable of tool use and formal theorem proving without any further finetuning. We openly release all artifacts, including 7 billion and 34 billion parameter models, the Proof-Pile-2, and code to replicate our experiments.

arxiv情報

著者 Zhangir Azerbayev,Hailey Schoelkopf,Keiran Paster,Marco Dos Santos,Stephen McAleer,Albert Q. Jiang,Jia Deng,Stella Biderman,Sean Welleck
発行日 2023-12-01 03:51:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LO パーマリンク