Safurai-Csharp: Harnessing Synthetic Data to improve language-specific Code LLM

要約

このペーパーでは、C# コードの生成、完了、デバッグに特化するように設計されたオープンソース モデルである Safurai-Csharp について紹介します。
Safurai-Csharp は新しい CodeLlama 34B モデルに基づいて構築されており、EvolInstruct 手法を活用して、微調整プロセス用に洗練され拡張されたデータセットを作成します。
そのパフォーマンスの結果、Manual MultiPL-E ベンチマーク (Zero-Shot、Pass@1) で 56.33% という注目すべきスコアは、開発者のワークフローを合理化し、コード学習を支援するその高い能力を示しています。
これは、オープンソース C# LLM の状況に新たな立場を確立する可能性を示しており、言語固有の LLM の分野でより包括的で幅広い開発を促すことを期待しています。

要約(オリジナル)

This paper introduces Safurai-Csharp, an open-source model designed to specialize in the generation, completion, and debugging of C# code. Safurai-Csharp is built upon the novel CodeLlama 34B model and leverages the EvolInstruct technique, creating a refined and expanded dataset for its fine-tuning process. The results of its performance, a notable score of 56.33% on the Manual MultiPL-E benchmark (Zero-Shot, Pass@1), signal its high capacity to streamline developers’ workflows and aid code learning. It shows promise in setting new stakes in the landscape of open-source C# LLMs and hopes to inspire more inclusive and wide-ranging development in the field of language-specific LLMs.

arxiv情報

著者 Davide Cifarelli,Leonardo Boiardi,Alessandro Puppo,Leon Jovanovic
発行日 2023-11-06 16:31:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク