Constructing Multilingual Code Search Dataset Using Neural Machine Translation

要約

コード検索は、指定された自然言語クエリに意味的に一致するプログラミング コードを見つけるタスクです。
このタスクの既存のデータセットの一部はプログラミング言語側で多言語対応ですが、クエリ データは英語のみです。
この研究では、ニューラル機械翻訳モデルを使用して、4 つの自然言語と 4 つのプログラミング言語で多言語コード検索データセットを作成します。
データセットを使用して、Transformer ベースのモデルを事前トレーニングして微調整し、複数のコード検索テスト セットで評価します。
私たちの結果は、すべての自然データとプログラミング言語データを使用して事前トレーニングされたモデルが、ほとんどの場合で最高のパフォーマンスを発揮したことを示しています。
逆翻訳データ フィルタリングをデータセットに適用することで、翻訳の品質はモデルのパフォーマンスにある程度影響しますが、データ サイズの方が重要であることを示します。

要約(オリジナル)

Code search is a task to find programming codes that semantically match the given natural language queries. Even though some of the existing datasets for this task are multilingual on the programming language side, their query data are only in English. In this research, we create a multilingual code search dataset in four natural and four programming languages using a neural machine translation model. Using our dataset, we pre-train and fine-tune the Transformer-based models and then evaluate them on multiple code search test sets. Our results show that the model pre-trained with all natural and programming language data has performed best in most cases. By applying back-translation data filtering to our dataset, we demonstrate that the translation quality affects the model’s performance to a certain extent, but the data size matters more.

arxiv情報

著者 Ryo Sekizawa,Nan Duan,Shuai Lu,Hitomi Yanaka
発行日 2023-06-27 16:42:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SE パーマリンク