Heterogeneous Directed Hypergraph Neural Network over abstract syntax tree (AST) for Code Classification

要約

タイトル:Heterogeneous Directed Hypergraph Neural Networkを用いた抽象構文木(AST)のプログラム分類

要約:
– プログラム理解と自動コーディングにおいて、コード分類は複雑な問題である。
– 抽象構文木(AST)とグラフニューラルネットワーク(GNN)に基づく技術を使用して、コード表現を作成している
– これらの技術は、コードの構造と意味情報を利用するが、ペアの関連性しか考慮しておらず、ASTのノード間の高次相関を無視しているため、コード構造情報の損失につながる可能性がある。
– 一方、一般的なハイパーグラフは高次データ相関をエンコードすることが可能だが、均質で無向であるため、ASTをモデル化するときにノード型、エッジ型、親ノードと子ノードの方向などの意味的および構造的情報が欠落することになる。
– 本研究では、抽象構文木を異種有向ハイパーグラフ(HDHG)として表現し、異種有向ハイパーグラフニューロネットワーク(HDHGN)でグラフを処理して、コード分類を行うことを提案する。
– 本手法は、ペアの相互作用を超えた高次データ相関を表現できるため、コード理解を改善できる。
– PythonおよびJavaプログラムの公開データセットでHeterogeneous Directed Hypergraph Neural Network(HDHGN)を評価した結果、従来のASTおよびGNNに基づく手法よりも良い性能を示した。

要約(オリジナル)

Code classification is a difficult issue in program understanding and automatic coding. Due to the elusive syntax and complicated semantics in programs, most existing studies use techniques based on abstract syntax tree (AST) and graph neural network (GNN) to create code representations for code classification. These techniques utilize the structure and semantic information of the code, but they only take into account pairwise associations and neglect the high-order correlations that already exist between nodes in the AST, which may result in the loss of code structural information. On the other hand, while a general hypergraph can encode high-order data correlations, it is homogeneous and undirected which will result in a lack of semantic and structural information such as node types, edge types, and directions between child nodes and parent nodes when modeling AST. In this study, we propose to represent AST as a heterogeneous directed hypergraph (HDHG) and process the graph by heterogeneous directed hypergraph neural network (HDHGN) for code classification. Our method improves code understanding and can represent high-order data correlations beyond paired interactions. We assess heterogeneous directed hypergraph neural network (HDHGN) on public datasets of Python and Java programs. Our method outperforms previous AST-based and GNN-based methods, which demonstrates the capability of our model.

arxiv情報

著者 Guang Yang,Tiancheng Jin,Liang Dou
発行日 2023-05-10 15:56:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG, cs.SE パーマリンク