要約
タイトル:「自己改善によるより優れたコードの言語モデル」
要約:
– 最近の研究において、事前学習されたコードの言語モデル(PLMC)が注目されています。
– これらのモデルは、マルチモーダルな目的を使用して大規模なデータセットで事前に学習されますが、微調整には広範な監視が必要であり、提供されるデータセットのサイズに制限があります。
– この問題を改善するために、簡単なデータ拡張フレームワークを提案しています。
– 当社のフレームワークは、事前学習と微調整段階で得られた知識を利用して、疑似データを生成し、次のステップのトレーニングデータとして使用します。
– CodeT5、CodeBERT、UnixCoderなどの最先端の言語モデルにこのフレームワークを組み込みました。
– 結果は、当社のフレームワークが、コードの要約やCodeXGLUEベンチマークのコード生成などのシーケンス生成タスクにおいて、PLMCのパフォーマンスを著しく改善することを示しています。
要約(オリジナル)
Pre-trained language models for code (PLMCs) have gained attention in recent research. These models are pre-trained on large-scale datasets using multi-modal objectives. However, fine-tuning them requires extensive supervision and is limited by the size of the dataset provided. We aim to improve this issue by proposing a simple data augmentation framework. Our framework utilizes knowledge gained during the pre-training and fine-tuning stage to generate pseudo data, which is then used as training data for the next step. We incorporate this framework into the state-of-the-art language models, such as CodeT5, CodeBERT, and UnixCoder. The results show that our framework significantly improves PLMCs’ performance in code-related sequence generation tasks, such as code summarization and code generation in the CodeXGLUE benchmark.
arxiv情報
著者 | Hung Quoc To,Nghi D. Q. Bui,Jin Guo,Tien N. Nguyen |
発行日 | 2023-05-10 02:36:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI