Measuring The Impact Of Programming Language Distribution

要約

ニューラル コード モデルを評価するための現在のベンチマークは、プログラミング言語の小さなサブセットのみに焦点を当てており、Go や Rust などの多くの一般的な言語は除外されています。
この問題を改善するために、任意の言語の任意のベンチマークを実行ベースで評価するための BabelCode フレームワークを紹介します。
BabelCode を使用すると、モデルのメモリ、ランタイム、および個々のテスト ケースの結果の定性的なパフォーマンスを新たに調査できます。
さらに、エキスパート レベルの Python 関数を任意の言語に翻訳することを含む Python Programming Puzzles (Schuster et al. 2021) ベンチマークから、Translating Python Programming Puzzles (TP3) と呼ばれる新しいコード翻訳データセットを提示します。
BabelCode と TP3 ベンチマークの両方を使用して、トレーニング データセット内の 14 の言語の分布のバランスをとることで、リソースの少ない言語での大規模な言語モデルのパフォーマンスが向上するかどうかを調査します。
バランスの取れたコーパスでモデルをトレーニングすると、ベースラインと比較して、すべてのタスクと言語で $pass@k$ が平均で 12.34% 高くなります。
この戦略により、リソースの少ない言語で $pass@k$ が 66.48% 向上し、リソースの多い言語ではわずか 12.94% 低下することがわかりました。
3 つの翻訳タスクでは、この戦略により、平均して、低リソースの $pass@k$ が 30.77% 向上し、高リソースの $pass@k$ は 19.58% 劣っています。

要約(オリジナル)

Current benchmarks for evaluating neural code models focus on only a small subset of programming languages, excluding many popular languages such as Go or Rust. To ameliorate this issue, we present the BabelCode framework for execution-based evaluation of any benchmark in any language. BabelCode enables new investigations into the qualitative performance of models’ memory, runtime, and individual test case results. Additionally, we present a new code translation dataset called Translating Python Programming Puzzles (TP3) from the Python Programming Puzzles (Schuster et al. 2021) benchmark that involves translating expert-level python functions to any language. With both BabelCode and the TP3 benchmark, we investigate if balancing the distributions of 14 languages in a training dataset improves a large language model’s performance on low-resource languages. Training a model on a balanced corpus results in, on average, 12.34% higher $pass@k$ across all tasks and languages compared to the baseline. We find that this strategy achieves 66.48% better $pass@k$ on low-resource languages at the cost of only a 12.94% decrease to high-resource languages. In our three translation tasks, this strategy yields, on average, 30.77% better low-resource $pass@k$ while having 19.58% worse high-resource $pass@k$.

arxiv情報

著者 Gabriel Orlanski,Kefan Xiao,Xavier Garcia,Jeffrey Hui,Joshua Howland,Jonathan Malmaud,Jacob Austin,Rishah Singh,Michele Catasta
発行日 2023-03-15 14:36:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.PL パーマリンク