xCodeEval: A Large Scale Multilingual Multitask Benchmark for Code Understanding, Generation, Translation and Retrieval

要約

問題解決能力は知能の特徴であり、AIにおける永遠の目標である。問題解決としてのプログラムを作成したり、開発者のプログラム作成を支援したりするAIシステムは、生産性を向上させ、プログラミングをより身近なものにすることができます。近年、訓練済みの大規模言語モデルが、自然言語記述から新しいコードを生成したり、バグを起こしたコードを修復したり、言語間のコードを翻訳したり、関連するコードセグメントを検索したりする際に、素晴らしい能力を示しています。しかし、これらのモデルの評価は、1つか2つの特定のタスク、いくつかの言語、部分的な粒度(例えば、関数)レベルで、多くの場合、適切なトレーニングデータなしで散在的に行われてきました。さらに問題なのは、ほとんどの場合、生成されたコードの評価は、実際の実行ではなく、単なる語彙の重複の観点から行われていることです。2つのコードセグメントの意味的類似性(または同等性)は、「実行の類似性」、すなわち、与えられた入力に対して同じ出力を得ることができるかどうかにのみ依存しています。

要約(オリジナル)

The ability to solve problems is a hallmark of intelligence and has been an enduring goal in AI. AI systems that can create programs as solutions to problems or assist developers in writing programs can increase productivity and make programming more accessible. Recently, pre-trained large language models have shown impressive abilities in generating new codes from natural language descriptions, repairing buggy codes, translating codes between languages, and retrieving relevant code segments. However, the evaluation of these models has often been performed in a scattered way on only one or two specific tasks, in a few languages, at a partial granularity (e.g., function) level and in many cases without proper training data. Even more concerning is that in most cases the evaluation of generated codes has been done in terms of mere lexical overlap rather than actual execution whereas semantic similarity (or equivalence) of two code segments depends only on their “execution similarity”, i.e., being able to get the same output for a given input.

arxiv情報

著者 Mohammad Abdullah Matin Khan,M Saiful Bari,Xuan Long Do,Weishi Wang,Md Rizwan Parvez,Shafiq Joty
発行日 2023-03-06 10:08:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク