要約
大規模な言語モデルの API 呼び出し生成機能を向上させるために、100 万を超える命令と API 呼び出しのペアを含む大規模なマルチプログラミング言語データセットである API Pack を紹介します。
API Pack の 20,000 Python インスタンスで CodeLlama-13B を微調整することにより、目に見えない API 呼び出しの生成において、GPT-3.5 と GPT-4 と比較してそれぞれ約 10% と 5% 高い精度を達成しました。
API Pack の微調整により、ある言語の大量のデータと他の言語の少量のデータを活用することで、クロスプログラミング言語の汎用化が可能になります。
トレーニング データを 100 万インスタンスにスケールすると、トレーニング中に遭遇しなかった新しい API へのモデルの一般化がさらに向上します。
さらなる研究を促進するために、API Pack データセット、トレーニング済みモデル、および関連するソース コードを https://github.com/zguo0525/API-Pack でオープンソース化しています。
要約(オリジナル)
We introduce API Pack, a massive multi-programming language dataset containing more than 1 million instruction-API call pairs to improve the API call generation capabilities of large language models. By fine-tuning CodeLlama-13B on 20,000 Python instances from API Pack, we achieved around 10% and 5% higher accuracy compared to GPT-3.5 and GPT-4, respectively, in generating unseen API calls. Fine-tuning on API Pack enables cross-programming language generalization by leveraging a large amount of data in one language and small amounts of data from other languages. Scaling the training data to 1 million instances further improves the model’s generalization to new APIs not encountered during training. We open-source the API Pack dataset, trained models, and associated source code at https://github.com/zguo0525/API-Pack to facilitate further research.
arxiv情報
著者 | Zhen Guo,Adriana Meza Soria,Wei Sun,Yikang Shen,Rameswar Panda |
発行日 | 2024-05-31 17:31:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google