Measuring The Impact Of Programming Language Distribution

要約

ニューラル コード モデルを評価するための現在のベンチマークは、Go や Rust などの多くの人気のある言語を除き、プログラミング言語の少数のサブセットのみに焦点を当てています。
この問題を改善するために、任意の言語の任意のベンチマークを実行ベースで評価するための BabelCode フレームワークを紹介します。
BabelCode を使用すると、モデルのメモリ、ランタイム、および個々のテスト ケースの結果の定性的なパフォーマンスに関する新しい調査が可能になります。
さらに、専門家レベルの Python 関数を任意の言語に翻訳することを含む、Python Programming Puzzles (Schuster et al. 2021) ベンチマークからの Python Programming Puzzles (TP3) と呼ばれる新しいコード翻訳データセットを紹介します。
BabelCode と TP3 ベンチマークの両方を使用して、トレーニング データセット内の 14 言語の分布のバランスを取ると、リソースの少ない言語での大規模な言語モデルのパフォーマンスが向上するかどうかを調査します。
バランスの取れたコーパスでモデルをトレーニングすると、ベースラインと比較して、すべてのタスクと言語にわたって $pass@k$ が平均 12.34% 高くなります。
この戦略により、高リソース言語では 12.94% 減少するだけで、低リソース言語では 66.48% 優れた $pass@k$ が達成されることがわかりました。
3 つの翻訳タスクでは、この戦略により、低リソースの $pass@k$ は平均して 30.77% 向上しましたが、高リソースの $pass@k$ は 19.58% 悪くなっています。

要約(オリジナル)

Current benchmarks for evaluating neural code models focus on only a small subset of programming languages, excluding many popular languages such as Go or Rust. To ameliorate this issue, we present the BabelCode framework for execution-based evaluation of any benchmark in any language. BabelCode enables new investigations into the qualitative performance of models’ memory, runtime, and individual test case results. Additionally, we present a new code translation dataset called Translating Python Programming Puzzles (TP3) from the Python Programming Puzzles (Schuster et al. 2021) benchmark that involves translating expert-level python functions to any language. With both BabelCode and the TP3 benchmark, we investigate if balancing the distributions of 14 languages in a training dataset improves a large language model’s performance on low-resource languages. Training a model on a balanced corpus results in, on average, 12.34% higher $pass@k$ across all tasks and languages compared to the baseline. We find that this strategy achieves 66.48% better $pass@k$ on low-resource languages at the cost of only a 12.94% decrease to high-resource languages. In our three translation tasks, this strategy yields, on average, 30.77% better low-resource $pass@k$ while having 19.58% worse high-resource $pass@k$.

arxiv情報

著者 Gabriel Orlanski,Kefan Xiao,Xavier Garcia,Jeffrey Hui,Joshua Howland,Jonathan Malmaud,Jacob Austin,Rishabh Singh,Michele Catasta
発行日 2023-05-24 16:20:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.PL パーマリンク