Improving Article Classification with Edge-Heterogeneous Graph Neural Networks

要約

研究成果をコンテキスト固有のラベル分類法に分類することは、既存の論文と新しく出版された論文の量を考慮すると、困難かつ関連性のある下流のタスクです。
私たちは、単純なグラフ ニューラル ネットワーク (GNN) パイプラインをエッジ異種グラフ表現で強化することにより、記事分類のパフォーマンスを向上させる方法を提案します。
SciBERT は、記事のテキスト メタデータ内の高次のセマンティクスをキャプチャするためのノード特徴生成に使用されます。
完全に監視された伝達ノード分類実験は、Open Graph Benchmark (OGB) ogbn-arxiv データセットと PubMed 糖尿病データセットで実行され、それぞれ Microsoft Academic Graph (MAG) と PubMed Central からの追加メタデータで強化されています。
この結果は、エッジが不均一なグラフは、エッジが均一なグラフと比較して、すべての GNN モデルのパフォーマンスが一貫して向上していることを示しています。
変換されたデータにより、シンプルで浅い GNN パイプラインが、より複雑なアーキテクチャと同等の結果を達成できるようになります。
ogbn-arxiv では、2 層 GCN (精度 74.61%) を使用して OGB コンペティションでトップ 15 の結果を達成し、100 万未満のパラメータで最高スコアのソリューションとなりました。
PubMed では、グラフに追加の共著エッジを含めることにより、2 層 GraphSAGE を使用して SOTA GNN アーキテクチャを厳密に追跡しています (精度 89.88%)。
実装は $\href{https://github.com/lyvykhang/edgehetero-nodeproppred}{\text{https://github.com/lyvykhang/edgehetero-nodeproppred}}$ で入手できます。

要約(オリジナル)

Classifying research output into context-specific label taxonomies is a challenging and relevant downstream task, given the volume of existing and newly published articles. We propose a method to enhance the performance of article classification by enriching simple Graph Neural Networks (GNN) pipelines with edge-heterogeneous graph representations. SciBERT is used for node feature generation to capture higher-order semantics within the articles’ textual metadata. Fully supervised transductive node classification experiments are conducted on the Open Graph Benchmark (OGB) ogbn-arxiv dataset and the PubMed diabetes dataset, augmented with additional metadata from Microsoft Academic Graph (MAG) and PubMed Central, respectively. The results demonstrate that edge-heterogeneous graphs consistently improve the performance of all GNN models compared to the edge-homogeneous graphs. The transformed data enable simple and shallow GNN pipelines to achieve results on par with more complex architectures. On ogbn-arxiv, we achieve a top-15 result in the OGB competition with a 2-layer GCN (accuracy 74.61%), being the highest-scoring solution with sub-1 million parameters. On PubMed, we closely trail SOTA GNN architectures using a 2-layer GraphSAGE by including additional co-authorship edges in the graph (accuracy 89.88%). The implementation is available at: $\href{https://github.com/lyvykhang/edgehetero-nodeproppred}{\text{https://github.com/lyvykhang/edgehetero-nodeproppred}}$.

arxiv情報

著者 Khang Ly,Yury Kashnitsky,Savvas Chamezopoulos,Valeria Krzhizhanovskaya
発行日 2023-09-20 14:18:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク