Heterogeneous Directed Hypergraph Neural Network over abstract syntax tree (AST) for Code Classification

要約

タイトル:Abstract Syntax Tree (AST)に対する異種有向超グラフニューラルネットワークを使用したコード分類

要約:
– コード分類は、プログラム理解と自動コーディングの上で難しい問題である。
– 既存の研究では、プログラムの曖昧な構文や複雑な意味を把握するために、抽象構文木(AST)とグラフニューラルネットワーク(GNN)を使用する手法が多い。
– これらの手法は、コードの構造や意味情報を利用するが、ノード間のペアのアソシエーションしか考慮しておらず、AST内のノード間の高次相関を無視する傾向にある。
– 一方、一般的な超グラフは高次相関をエンコードできるが、均質で無向であり、ASTのモデリングにおいてノードタイプ、エッジタイプ、親と子の間の方向などの文法・構造情報が不足している。
– 本研究では、ASTを異種有向超グラフ(HDHG)として表現し、異種有向超グラフニューラルネットワーク(HDHGN)によってグラフを処理し、コード分類を行うことを提案している。
– この手法は、コード理解を改善し、ペアの相互作用を超えた高次相関を表現できる。
– PythonとJavaプログラムの公開データセットを使用して異種有向超グラフニューラルネットワーク(HDHGN)を評価した結果、以前のASTベースおよびGNNベースの手法よりも優れた性能を発揮し、モデルの能力を証明した。

要約(オリジナル)

Code classification is a difficult issue in program understanding and automatic coding. Due to the elusive syntax and complicated semantics in programs, most existing studies use techniques based on abstract syntax tree (AST) and graph neural network (GNN) to create code representations for code classification. These techniques utilize the structure and semantic information of the code, but they only take into account pairwise associations and neglect the high-order correlations that already exist between nodes in the AST, which may result in the loss of code structural information. On the other hand, while a general hypergraph can encode high-order data correlations, it is homogeneous and undirected which will result in a lack of semantic and structural information such as node types, edge types, and directions between child nodes and parent nodes when modeling AST. In this study, we propose to represent AST as a heterogeneous directed hypergraph (HDHG) and process the graph by heterogeneous directed hypergraph neural network (HDHGN) for code classification. Our method improves code understanding and can represent high-order data correlations beyond paired interactions. We assess heterogeneous directed hypergraph neural network (HDHGN) on public datasets of Python and Java programs. Our method outperforms previous AST-based and GNN-based methods, which demonstrates the capability of our model.

arxiv情報

著者 Guang Yang,Tiancheng Jin,Liang Dou
発行日 2023-05-07 09:28:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG, cs.SE パーマリンク