Language Agnostic Code Embeddings

要約

最近、コード言語モデルは、さまざまな重要なコード理解および生成タスクに対処する上で、顕著な進歩を遂げています。
しかし、この分野では、多言語コード モデルのコード埋め込みに関する包括的な深い調査と理解が不足しています。
このペーパーでは、さまざまなプログラミング言語間でのこれらの埋め込みの言語間機能に焦点を当て、多言語コードの埋め込みに関する包括的な研究を紹介します。
調査実験を通じて、コードの埋め込みが 2 つの異なるコンポーネントで構成されていることを実証しました。1 つは特定の言語のニュアンスと構文に深く結びついており、もう 1 つはこれらの詳細にはとらわれず、主にセマンティクスに焦点を当てています。
さらに、この言語固有のコンポーネントを分離して削除すると、下流のコード検索タスクが大幅に改善され、平均逆数ランク (MRR) が最大 +17 絶対的に増加することがわかりました。

要約(オリジナル)

Recently, code language models have achieved notable advancements in addressing a diverse array of essential code comprehension and generation tasks. Yet, the field lacks a comprehensive deep dive and understanding of the code embeddings of multilingual code models. In this paper, we present a comprehensive study on multilingual code embeddings, focusing on the cross-lingual capabilities of these embeddings across different programming languages. Through probing experiments, we demonstrate that code embeddings comprise two distinct components: one deeply tied to the nuances and syntax of a specific language, and the other remaining agnostic to these details, primarily focusing on semantics. Further, we show that when we isolate and eliminate this language-specific component, we witness significant improvements in downstream code retrieval tasks, leading to an absolute increase of up to +17 in the Mean Reciprocal Rank (MRR).

arxiv情報

著者 Saiteja Utpala,Alex Gu,Pin Yu Chen
発行日 2023-10-25 17:34:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク