Syntax and Domain Aware Model for Unsupervised Program Translation

要約

ソフトウェアや社会の発展として、ソフトウェアマイグレーションへの関心が高まっています。
言語間でプロジェクトを手動で移行すると、エラーが発生しやすく、費用がかかります。
近年、研究者は、大規模な並列コード コーパスから学習することで、教師あり深層学習技術を使用した自動プログラム翻訳の研究を開始しています。
ただし、プログラミング言語ドメインでは並列リソースが不足しており、バイリンガル データを手動で収集するにはコストがかかります。
この問題に対処するために、いくつかの教師なしプログラミング翻訳システムが提案されています。
ただし、これらのシステムは依然として膨大な単一言語ソース コードに依存しており、非常にコストがかかります。
さらに、これらのモデルは、事前トレーニング手順中に見られない言語を翻訳するためにうまく機能しません。
この論文では、プログラム翻訳のための構文およびドメイン認識モデルである SDA-Trans を提案します。これは、構文構造とドメイン知識を活用して言語間転送能力を強化します。
SDA-Trans は、Python や Java の単一言語プログラムなど、小規模なコーパスで教師なしトレーニングを採用しています。
Python、Java、および C++ 間の関数変換タスクに関する実験結果は、SDA-Trans が多くの大規模な事前トレーニング済みモデルよりも優れていることを示しており、特に目に見えない言語の変換では顕著です。

要約(オリジナル)

There is growing interest in software migration as the development of software and society. Manually migrating projects between languages is error-prone and expensive. In recent years, researchers have begun to explore automatic program translation using supervised deep learning techniques by learning from large-scale parallel code corpus. However, parallel resources are scarce in the programming language domain, and it is costly to collect bilingual data manually. To address this issue, several unsupervised programming translation systems are proposed. However, these systems still rely on huge monolingual source code to train, which is very expensive. Besides, these models cannot perform well for translating the languages that are not seen during the pre-training procedure. In this paper, we propose SDA-Trans, a syntax and domain-aware model for program translation, which leverages the syntax structure and domain knowledge to enhance the cross-lingual transfer ability. SDA-Trans adopts unsupervised training on a smaller-scale corpus, including Python and Java monolingual programs. The experimental results on function translation tasks between Python, Java, and C++ show that SDA-Trans outperforms many large-scale pre-trained models, especially for unseen language translation.

arxiv情報

著者 Fang Liu,Jia Li,Li Zhang
発行日 2023-03-10 03:28:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE パーマリンク