要約
大規模な言語モデルは、ソフトウェア開発ツールとしてますます人気が高まっています。
ソース コードをモデル化して生成する機能は、コード補完、要約、翻訳、検索などのさまざまな状況で実証されています。
ただし、複雑なプログラムのコードを生成するのに苦労することがよくあります。
この論文では、並列コードを生成する最先端の言語モデルの機能を研究します。
言語モデルを評価するために、科学的および並列コンピューティングに関連する 420 の異なるコーディング タスクを表すプロンプトで構成されるベンチマーク ParEval を作成します。
私たちは ParEval を使用して、これらのタスクに対するいくつかの最先端のオープンソースおよびクローズドソース言語モデルの有効性を評価します。
生成されたコードのパフォーマンスを評価するための新しいメトリクスを導入し、それらを使用して、各大規模言語モデルが 12 種類の異なる計算問題と 6 つの異なる並列プログラミング モデルに対してどの程度うまく機能するかを調査します。
要約(オリジナル)
Large language models are increasingly becoming a popular tool for software development. Their ability to model and generate source code has been demonstrated in a variety of contexts, including code completion, summarization, translation, and lookup. However, they often struggle to generate code for complex programs. In this paper, we study the capabilities of state-of-the-art language models to generate parallel code. In order to evaluate language models, we create a benchmark, ParEval, consisting of prompts that represent 420 different coding tasks related to scientific and parallel computing. We use ParEval to evaluate the effectiveness of several state-of-the-art open- and closed-source language models on these tasks. We introduce novel metrics for evaluating the performance of generated code, and use them to explore how well each large language model performs for 12 different computational problem types and six different parallel programming models.
arxiv情報
著者 | Daniel Nichols,Joshua H. Davis,Zhaojun Xie,Arjun Rajaram,Abhinav Bhatele |
発行日 | 2024-05-14 15:07:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google