TEG-DB: A Comprehensive Dataset and Benchmark of Textual-Edge Graphs


Text-Attributed Graphs (TAG) は、自然言語による記述でグラフ構造を強化し、データと現実世界のさまざまな設定におけるデータの相互接続の詳細な描写を容易にします。
ただし、既存の TAG データセットは主にノードのテキスト情報のみを特徴とし、エッジは通常単なるバイナリ属性またはカテゴリ属性で表されます。
このギャップに対処するために、テキスト エッジ グラフ データセットとベンチマーク (TEG-DB) を導入します。これは、ノードとエッジに関する豊富なテキスト説明を特徴とするベンチマーク テキスト エッジ データセットの包括的かつ多様なコレクションです。
TEG-DB データセットは大規模で、引用ネットワークからソーシャル ネットワークに至るまで、幅広い領域を網羅しています。
さらに、TEG-DB で広範なベンチマーク実験を実施し、事前トレーニング済み言語モデル、グラフ ニューラル ネットワーク、およびそれらの組み合わせを含む現在の技術がテキストのノードとエッジ情報をどの程度利用できるかを評価します。
TEG-DB プロジェクト全体は、Github 上のオープンソース リポジトリとして公開されており、https://github.com/Zhuofeng-Li/TEG-Benchmark からアクセスできます。


Text-Attributed Graphs (TAGs) augment graph structures with natural language descriptions, facilitating detailed depictions of data and their interconnections across various real-world settings. However, existing TAG datasets predominantly feature textual information only at the nodes, with edges typically represented by mere binary or categorical attributes. This lack of rich textual edge annotations significantly limits the exploration of contextual relationships between entities, hindering deeper insights into graph-structured data. To address this gap, we introduce Textual-Edge Graphs Datasets and Benchmark (TEG-DB), a comprehensive and diverse collection of benchmark textual-edge datasets featuring rich textual descriptions on nodes and edges. The TEG-DB datasets are large-scale and encompass a wide range of domains, from citation networks to social networks. In addition, we conduct extensive benchmark experiments on TEG-DB to assess the extent to which current techniques, including pre-trained language models, graph neural networks, and their combinations, can utilize textual node and edge information. Our goal is to elicit advancements in textual-edge graph research, specifically in developing methodologies that exploit rich textual node and edge descriptions to enhance graph analysis and provide deeper insights into complex real-world networks. The entire TEG-DB project is publicly accessible as an open-source repository on Github, accessible at https://github.com/Zhuofeng-Li/TEG-Benchmark.


著者 Zhuofeng Li,Zixing Gou,Xiangnan Zhang,Zhongyuan Liu,Sirui Li,Yuntong Hu,Chen Ling,Zheng Zhang,Liang Zhao
発行日 2024-11-25 13:35:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク