On the Impact of Language Selection for Training and Evaluating Programming Language Models

要約

Transformer ベースの言語モデルの最近の進歩により、これらのモデルの多言語機能を強化する大きな可能性が実証されました。
この領域での目覚ましい進歩は、自然言語タスクに適用されるだけでなく、プログラミング言語の領域にも広がります。
これらのモデルは複数の言語から学習する能力があるにもかかわらず、評価は通常、同じ言語の特定の組み合わせに焦点を当てます。
この研究では、CodeBERT ベースのモデルを使用してプログラミング言語の表現を分析することで、プログラミング言語の類似性を評価します。
私たちの実験では、C++、Python、Java などの言語のトークン表現は互いに近接しているのに対し、Mathematica や R などの言語では同じトークンが大幅に類似していないことが明らかになりました。
私たちの調査結果は、この現象が多様な言語を扱うときに潜在的にパフォーマンスの問題を引き起こす可能性があることを示唆しています。
したがって、将来のモデルをトレーニングおよび評価する際には、類似性の尺度を使用して多様なプログラミング言語のセットを選択することをお勧めします。

要約(オリジナル)

The recent advancements in Transformer-based Language Models have demonstrated significant potential in enhancing the multilingual capabilities of these models. The remarkable progress made in this domain not only applies to natural language tasks but also extends to the domain of programming languages. Despite the ability of these models to learn from multiple languages, evaluations typically focus on particular combinations of the same languages. In this study, we evaluate the similarity of programming languages by analyzing their representations using a CodeBERT-based model. Our experiments reveal that token representation in languages such as C++, Python, and Java exhibit proximity to one another, whereas the same tokens in languages such as Mathematica and R display significant dissimilarity. Our findings suggest that this phenomenon can potentially result in performance challenges when dealing with diverse languages. Thus, we recommend using our similarity measure to select a diverse set of programming languages when training and evaluating future models.

arxiv情報

著者 Jonathan Katzy,Maliheh Izadi,Arie van Deursen
発行日 2023-08-25 12:57:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.PL, cs.SE パーマリンク