xASTNN: Improved Code Representations for Industrial Practice

要約

ソフトウェア エンジニアリングにおけるディープ ラーニング技術の応用はますます一般的になっています。
重要な問題の 1 つは、コード関連のタスク用に高品質で使いやすいソース コード表現を開発することです。
近年、研究コミュニティは目覚ましい成果を上げています。
ただし、展開の難しさとパフォーマンスのボトルネックにより、これらのアプローチが業界に適用されることはめったにありません。
このホワイト ペーパーでは、ソース コード表現用の eXtreme Abstract Syntax Tree (AST) ベースのニューラル ネットワークである xASTNN を紹介し、この手法を産業の実践に応用することを目指しています。
提案された xASTNN には 3 つの利点があります。
まず、xASTNN は広く使用されている AST に完全に基づいており、複雑なデータの前処理を必要としないため、さまざまなプログラミング言語や実際のシナリオに適用できます。
次に、xASTNN の有効性を保証するために、コードの自然性のためのステートメント サブツリー シーケンス、構文情報のためのゲート付き再帰ユニット、および順次情報のためのゲート付き再帰ユニットを含む 3 つの密接に関連する設計が提案されています。
第 3 に、動的バッチ処理アルゴリズムが導入され、xASTNN の時間の複雑さが大幅に軽減されます。
2 つのコード理解ダウンストリーム タスク、コード分類とコード クローン検出が評価に採用されます。
結果は、xASTNN がベースラインよりも高速でありながら、最先端を改善できることを示しています。

要約(オリジナル)

The application of deep learning techniques in software engineering becomes increasingly popular. One key problem is developing high-quality and easy-to-use source code representations for code-related tasks. The research community has acquired impressive results in recent years. However, due to the deployment difficulties and performance bottlenecks, seldom these approaches are applied to the industry. In this paper, we present xASTNN, an eXtreme Abstract Syntax Tree (AST)-based Neural Network for source code representation, aiming to push this technique to industrial practice. The proposed xASTNN has three advantages. First, xASTNN is completely based on widely-used ASTs and does not require complicated data pre-processing, making it applicable to various programming languages and practical scenarios. Second, three closely-related designs are proposed to guarantee the effectiveness of xASTNN, including statement subtree sequence for code naturalness, gated recursive unit for syntactical information, and gated recurrent unit for sequential information. Third, a dynamic batching algorithm is introduced to significantly reduce the time complexity of xASTNN. Two code comprehension downstream tasks, code classification and code clone detection, are adopted for evaluation. The results demonstrate that our xASTNN can improve the state-of-the-art while being faster than the baselines.

arxiv情報

著者 Zhiwei Xu,Min Zhou,Xibin Zhao,Yang Chen,Xi Cheng,Hongyu Zhang
発行日 2023-03-13 13:42:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE パーマリンク