To Understand Representation of Layer-aware Sequence Encoders as Multi-order-graph

要約

この論文では、自己注意ネットワーク (SAN) ベースのニューラル シーケンス エンコーダの表現の説明を提案します。これは、モデルによってキャプチャされた情報とモデルの符号化をそれぞれグラフ構造とこれらのグラフ構造の生成と見なします。
提案された説明は、SAN ベースのモデルに関する既存の研究に適用され、構造または言語情報をキャプチャする能力、モデルの深さ、および文の長さの間の関係を説明でき、リカレント ニューラル ネットワークなどの他のモデルにも拡張できます。
ベースモデル。
また、SAN ベース モデルのグラフ構造を MoG のサブグラフとしてモデル化し、SAN ベース モデルのエンコーディングを MoG の生成に変換するという説明に基づいて、Multi-order-Graph (MoG) と呼ばれる再検討されたマルチグラフを提案します。
私たちの説明に基づいて、異なる次数の複数のサブグラフをキャプチャする機能を強化し、高次のサブグラフに焦点を当てることにより、Graph-Transformer をさらに導入します。
複数のニューラル機械翻訳タスクに関する実験結果は、Graph-Transformer が効果的なパフォーマンスの向上をもたらすことを示しています。

要約(オリジナル)

In this paper, we propose an explanation of representation for self-attention network (SAN) based neural sequence encoders, which regards the information captured by the model and the encoding of the model as graph structure and the generation of these graph structures respectively. The proposed explanation applies to existing works on SAN-based models and can explain the relationship among the ability to capture the structural or linguistic information, depth of model, and length of sentence, and can also be extended to other models such as recurrent neural network based models. We also propose a revisited multigraph called Multi-order-Graph (MoG) based on our explanation to model the graph structures in the SAN-based model as subgraphs in MoG and convert the encoding of SAN-based model to the generation of MoG. Based on our explanation, we further introduce a Graph-Transformer by enhancing the ability to capture multiple subgraphs of different orders and focusing on subgraphs of high orders. Experimental results on multiple neural machine translation tasks show that the Graph-Transformer can yield effective performance improvement.

arxiv情報

著者 Sufeng Duan,Hai Zhao
発行日 2023-03-14 04:18:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク