Are More Layers Beneficial to Graph Transformers?

要約

多くのニューラル アーキテクチャで深く掘り下げることが成功しているにもかかわらず、既存のグラフ トランスフォーマーは比較的浅いものです。
この作業では、より多くのレイヤーがグラフ トランスフォーマーにとって有益であるかどうかを調査し、現在のグラフ トランスフォーマーは、深さを増やすことによってパフォーマンスを向上させるというボトルネックに悩まされていることを発見しました。
さらなる分析により、その理由は、ディープ グラフ トランスフォーマーがグローバルな注意の消失容量によって制限され、グラフ トランスフォーマーが重要な下部構造に焦点を合わせて表現力豊かな機能を取得することを制限することであることが明らかになりました。
この目的のために、コード化された表現で部分構造トークンを明示的に使用し、関連するノードに局所的な注意を適用して部分構造ベースの注意エンコーディングを取得する、DeepGraph という名前の新しいグラフ変換モデルを提案します。
私たちのモデルは、サブ構造に集中するグローバルな注意の能力を高め、表現の表現力を促進し、グラフ変換が深まるにつれて自己注意の制限に対処します。
実験は、私たちの方法がグラフトランスフォーマーの深さの制限をブロック解除し、より深いモデルを使用したさまざまなグラフベンチマークで最先端のパフォーマンスを実現することを示しています.

要約(オリジナル)

Despite that going deep has proven successful in many neural architectures, the existing graph transformers are relatively shallow. In this work, we explore whether more layers are beneficial to graph transformers, and find that current graph transformers suffer from the bottleneck of improving performance by increasing depth. Our further analysis reveals the reason is that deep graph transformers are limited by the vanishing capacity of global attention, restricting the graph transformer from focusing on the critical substructure and obtaining expressive features. To this end, we propose a novel graph transformer model named DeepGraph that explicitly employs substructure tokens in the encoded representation, and applies local attention on related nodes to obtain substructure based attention encoding. Our model enhances the ability of the global attention to focus on substructures and promotes the expressiveness of the representations, addressing the limitation of self-attention as the graph transformer deepens. Experiments show that our method unblocks the depth limitation of graph transformers and results in state-of-the-art performance across various graph benchmarks with deeper models.

arxiv情報

著者 Haiteng Zhao,Shuming Ma,Dongdong Zhang,Zhi-Hong Deng,Furu Wei
発行日 2023-03-01 15:22:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク