xCodeEval: A Large Scale Multilingual Multitask Benchmark for Code Understanding, Generation, Translation and Retrieval

要約

タイトル:xCodeEval:コード理解、生成、翻訳、および検索のための大規模なマルチリンガルマルチタスクベンチマーク

要約:

– AIにおける目標の1つである問題解決能力は、コードを作成したり、開発者がプログラムを作成することを支援したりするAIシステムによって生産性を高め、プログラミングをよりアクセスしやすくすることができます。
– 最近、事前トレーニングされた大規模言語モデルは、自然言語の説明から新しいコードを生成したり、不具合のあるコードを修復したり、言語間でコードを翻訳したり、関連するコードセグメントを検索するなど、印象的な能力を示しています。
– ただし、これらのモデルの評価は、しばしば散在しており、1つまたは2つの特定のタスク、いくつかの言語、部分的な粒度(例:関数レベル)で行われ、適切なトレーニングデータがない場合があります。
– さらに懸念すべきことは、生成されたコードの評価が単なる語彙の一致に基づいて行われている場合が多く、実際の実行に基づくものではないことです。つまり、2つのコードセグメントの意味的類似性(または同等性)は、「実行の類似性」に依存し、特定の入力に対して同じ出力を得ることができる能力によって決定されます。

要約(オリジナル)

The ability to solve problems is a hallmark of intelligence and has been an enduring goal in AI. AI systems that can create programs as solutions to problems or assist developers in writing programs can increase productivity and make programming more accessible. Recently, pre-trained large language models have shown impressive abilities in generating new codes from natural language descriptions, repairing buggy codes, translating codes between languages, and retrieving relevant code segments. However, the evaluation of these models has often been performed in a scattered way on only one or two specific tasks, in a few languages, at a partial granularity (e.g., function) level and in many cases without proper training data. Even more concerning is that in most cases the evaluation of generated codes has been done in terms of mere lexical overlap rather than actual execution whereas semantic similarity (or equivalence) of two code segments depends only on their “execution similarity”, i.e., being able to get the same output for a given input.

arxiv情報

著者 Mohammad Abdullah Matin Khan,M Saiful Bari,Xuan Long Do,Weishi Wang,Md Rizwan Parvez,Shafiq Joty
発行日 2023-04-17 05:27:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク