Safurai 001: New Qualitative Approach for Code LLM Evaluation

要約

この論文では、コーディング支援の分野で大きな可能性を秘めた新しい大規模言語モデル (LLM) である Safurai-001 について説明します。
LLM のコーディングにおける最近の進歩により、Safurai-001 は、WizardCoder [Xu et al., 2023]、PanguCoder [Shen et al., 2023]、Phi-1 [Gunasekar et al., 2023] などの最新モデルとパフォーマンスで競合します。
ただし、より会話的な対話を提供することを目的としています。
データ エンジニアリング (データ変換およびプロンプト エンジニアリングの最新技術を含む) と命令チューニングの進歩を活用することにより、この新しいモデルは、最近のクローズド ソースおよびオープン ソースの開発と互角に渡り合うことが約束されています。
LLM をコーディングするための効果的な評価指標の必要性を認識し、このホワイト ペーパーでは、モデルの機能とパフォーマンスについての包括的な洞察を提供するためにさまざまなパラメーターを活用する評価ベンチマークである GPT4 ベースの MultiParameters も紹介します。
私たちの評価では、Safurai-001 はコード可読性パラメータなどで GPT-3.5 を 1.58%、WizardCoder を 18.78% 上回っていることが示されています。

要約(オリジナル)

This paper presents Safurai-001, a new Large Language Model (LLM) with significant potential in the domain of coding assistance. Driven by recent advancements in coding LLMs, Safurai-001 competes in performance with the latest models like WizardCoder [Xu et al., 2023], PanguCoder [Shen et al., 2023] and Phi-1 [Gunasekar et al., 2023] but aims to deliver a more conversational interaction. By capitalizing on the progress in data engineering (including latest techniques of data transformation and prompt engineering) and instruction tuning, this new model promises to stand toe-to-toe with recent closed and open source developments. Recognizing the need for an efficacious evaluation metric for coding LLMs, this paper also introduces GPT4-based MultiParameters, an evaluation benchmark that harnesses varied parameters to present a comprehensive insight into the models functioning and performance. Our assessment shows that Safurai-001 can outperform GPT-3.5 by 1.58% and WizardCoder by 18.78% in the Code Readability parameter and more.

arxiv情報

著者 Davide Cifarelli,Leonardo Boiardi,Alessandro Puppo
発行日 2023-09-20 15:11:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク