Low-Cost Language Models: Survey and Performance Evaluation on Python Code Generation

要約

大規模言語モデル (LLM) は、その汎用性と高品質の結果を生成する機能により、多くの自然言語処理 (NLP) タスクで人気の選択肢となっています。
具体的には、開発者が反復的なコーディング作業に取り組むのを支援する自動コード生成に使用されることが増えています。
ただし、LLM には大量の計算要件とメモリ要件があるため、リソースが限られているユーザーは LLM にアクセスできないことがよくあります。
このペーパーでは、リソースを大量に消費する LLM に代わる、よりアクセスしやすい代替手段を提供する非常に低コストのモデルに焦点を当てます。
特に、(1) Python コード生成におけるパフォーマンスの徹底的な半手動評価を提案し、(2) モデル推論とコード品質を向上させるための思考連鎖 (CoT) プロンプト戦略を導入し、(3)
HumanEval や EvalPlus などの既存のベンチマークを拡張するように設計された、さまざまな難易度の 60 のプログラミング問題の新しいデータセット。
私たちの調査結果では、一部の低コスト互換モデルは、使用するリソースが大幅に少ないにもかかわらず、ChatGPT のような大規模モデルと比較して競争力のある結果を達成していることがわかりました。
さらなる研究をサポートするために、データセットとプロンプトを一般公開します。

要約(オリジナル)

Large Language Models (LLMs) have become a popular choice for many Natural Language Processing (NLP) tasks due to their versatility and ability to produce high-quality results. Specifically, they are increasingly used for automatic code generation to help developers tackle repetitive coding tasks. However, LLMs’ substantial computational and memory requirements often make them inaccessible to users with limited resources. This paper focuses on very low-cost models which offer a more accessible alternative to resource-intensive LLMs. We notably: (1) propose a thorough semi-manual evaluation of their performance in generating Python code, (2) introduce a Chain-of-Thought (CoT) prompting strategy to improve model reasoning and code quality, and (3) propose a new dataset of 60 programming problems, with varied difficulty levels, designed to extend existing benchmarks like HumanEval and EvalPlus. Our findings show that some low-cost compatible models achieve competitive results compared to larger models like ChatGPT despite using significantly fewer resources. We will make our dataset and prompts publicly available to support further research.

arxiv情報

著者 Jessica López Espejel,Mahaman Sanoussi Yahaya Alassan,Merieme Bouhandi,Walid Dahhane,El Hassane Ettifouri
発行日 2024-08-29 13:23:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク