AVATAR: A Parallel Corpus for Java-Python Program Translation

要約

【タイトル】AVATAR: Java-Pythonプログラム翻訳のための並列コーパス

【要約】
・プログラム翻訳は、ソースコードを一つのプログラム言語から別のプログラム言語へ移行することを指す。
・プログラム翻訳は、ソフトウェア開発において非常に実用的な価値があり、言語間でソフトウェアを移植することは時間とコストがかかる。
・プログラム翻訳の自動化は、ソフトウェア移行において極めて重要であり、最近の研究では、並列コーパスの不足のために非教師ありアプローチを探求している。
・しかし、プログラミング言語の事前学習済みの言語モデルが利用可能になったことで、少数のラベル付きの例で監視された微調整を可能にしている。
・したがって、JavaとPythonの2つの人気のある言語で書かれた9515のプログラム問題とその解決策を収集したAVATARを提供する。
・AVATARは、競技プログラミングサイト、オンラインプラットフォーム、オープンソースリポジトリから収集されている。
・さらに、AVATARには、機能的な正確性の評価を容易にするために、250の例に対するユニットテストが含まれている。
・AVATARで微調整されたいくつかの事前学習済み言語モデルをベンチマークする。実験結果は、モデルが機能的に正確なコードを生成することに欠けていることを示している。

要約(オリジナル)

Program translation refers to migrating source code from one programming language to another. It has tremendous practical value in software development, as porting software across languages is time-consuming and costly. Automating program translation is of paramount importance in software migration, and recently researchers explored unsupervised approaches due to the unavailability of parallel corpora. However, the availability of pre-trained language models for programming languages enables supervised fine-tuning with a small number of labeled examples. Therefore, we present AVATAR, a collection of 9,515 programming problems and their solutions written in two popular languages, Java and Python. AVATAR is collected from competitive programming sites, online platforms, and open-source repositories. Furthermore, AVATAR includes unit tests for 250 examples to facilitate functional correctness evaluation. We benchmark several pre-trained language models fine-tuned on AVATAR. Experiment results show that the models lack in generating functionally accurate code.

arxiv情報

著者 Wasi Uddin Ahmad,Md Golam Rahman Tushar,Saikat Chakraborty,Kai-Wei Chang
発行日 2023-05-04 20:22:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.SE パーマリンク