Source Code Data Augmentation for Deep Learning: A Survey

要約

多くの重要なソース コード タスクでディープ ラーニング モデルを採用することがますます一般的になり、トレーニング データを強化し、これらのモデルのさまざまな機能 (堅牢性や汎用性など) を向上させるデータ拡張 (DA) 技術の開発が促進されています。
一連の DA 手法が提案され、ソース コード モデルに合わせて調整されていますが、その有効性と影響を理解するための包括的な調査と検討が不足しています。
このペーパーでは、ソース コードのデータ拡張に関する包括的かつ統合的な調査を実施することでこのギャップを埋めます。この分野の包括的な概要を提供するために、既存の文献を体系的に編集およびカプセル化します。
まずソース コードにおけるデータ拡張の紹介から始め、次に主要な代表的なアプローチについて説明します。
次に、DA の品質を最適化するための一般的な戦略とテクニックに焦点を当てます。
続いて、実際のソース コードのシナリオと下流のタスクで役立つテクニックを強調します。
最後に、一般的な課題と将来の研究の潜在的な機会について概説します。
本質的に、私たちはディープラーニング用のソースコード DA に関する既存の文献のコーパスをわかりやすく理解し、この分野でのさらなる探索を促進することを目指しています。
これを補完するものとして、ソース コード モデリングに関する DA の最新論文のリストをホストする継続的に更新される GitHub リポジトリを紹介します。\url{https://github.com/terryyz/DataAug4Code} からアクセスできます。

要約(オリジナル)

The increasingly popular adoption of deep learning models in many critical source code tasks motivates the development of data augmentation (DA) techniques to enhance training data and improve various capabilities (e.g., robustness and generalizability) of these models. Although a series of DA methods have been proposed and tailored for source code models, there lacks a comprehensive survey and examination to understand their effectiveness and implications. This paper fills this gap by conducting a comprehensive and integrative survey of data augmentation for source code, wherein we systematically compile and encapsulate existing literature to provide a comprehensive overview of the field. We start with an introduction of data augmentation in source code and then provide a discussion on major representative approaches. Next, we highlight the general strategies and techniques to optimize the DA quality. Subsequently, we underscore techniques useful in real-world source code scenarios and downstream tasks. Finally, we outline the prevailing challenges and potential opportunities for future research. In essence, we aim to demystify the corpus of existing literature on source code DA for deep learning, and foster further exploration in this sphere. Complementing this, we present a continually updated GitHub repository that hosts a list of update-to-date papers on DA for source code modeling, accessible at \url{https://github.com/terryyz/DataAug4Code}.

arxiv情報

著者 Terry Yue Zhuo,Zhou Yang,Zhensu Sun,Yufei Wang,Li Li,Xiaoning Du,Zhenchang Xing,David Lo
発行日 2023-11-13 17:34:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE パーマリンク