Data Augmentation Approaches for Source Code Models: A Survey

要約

多くの重要なタスクでソース コードを採用することがますます一般的になり、トレーニング データを強化し、これらのモデルのさまざまな機能 (堅牢性や汎用性など) を向上させるデータ拡張 (DA) 技術の開発が促進されています。
一連の DA 手法が提案され、ソース コード モデルに合わせて調整されていますが、その有効性と影響を理解するための包括的な調査と検討が不足しています。
このペーパーでは、ソース コードのデータ拡張に関する包括的かつ統合的な調査を実施することでこのギャップを埋めます。この分野の包括的な概要を提供するために、既存の文献を体系的に編集およびカプセル化します。
まず、ソース コード モデル モデル アプローチの DA の分類を構築し、その後、方法論的に説明に役立つ著名なアプローチについて説明します。
次に、DA の品質を最適化するための一般的な戦略とテクニックに焦点を当てます。
続いて、広く受け入れられているソース コードのシナリオと下流のタスクで有用な手法を強調します。
最後に、一般的な課題と将来の研究の潜在的な機会について概説します。
基本的に、この論文は、ソース コード モデルの DA に関する既存の文献のコーパスをわかりやすく説明し、この分野でのさらなる探索を促進することを目的としています。
これを補完するものとして、ソース コード モデルに関する DA に関する最新の論文のリストをホストする、継続的に更新される GitHub リポジトリを紹介します。\url{https://github.com/terryyz/DataAug4Code} からアクセスできます。

要約(オリジナル)

The increasingly popular adoption of source code in many critical tasks motivates the development of data augmentation (DA) techniques to enhance training data and improve various capabilities (e.g., robustness and generalizability) of these models. Although a series of DA methods have been proposed and tailored for source code models, there lacks a comprehensive survey and examination to understand their effectiveness and implications. This paper fills this gap by conducting a comprehensive and integrative survey of data augmentation for source code, wherein we systematically compile and encapsulate existing literature to provide a comprehensive overview of the field. We start by constructing a taxonomy of DA for source code models model approaches, followed by a discussion on prominent, methodologically illustrative approaches. Next, we highlight the general strategies and techniques to optimize the DA quality. Subsequently, we underscore techniques that find utility in widely-accepted source code scenarios and downstream tasks. Finally, we outline the prevailing challenges and potential opportunities for future research. In essence, this paper endeavors to demystify the corpus of existing literature on DA for source code models, and foster further exploration in this sphere. Complementing this, we present a continually updated GitHub repository that hosts a list of update-to-date papers on DA for source code models, accessible at \url{https://github.com/terryyz/DataAug4Code}.

arxiv情報

著者 Terry Yue Zhuo,Zhou Yang,Zhensu Sun,Yufei Wang,Li Li,Xiaoning Du,Zhenchang Xing,David Lo
発行日 2023-06-29 17:26:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE パーマリンク