要約
幅広いアプリケーションで成功を収めているにもかかわらず、シーケンスツーシーケンス モデルのソリューションの構築は、人間のような一般化に比べて構成性が低いと主張されています。
構成の一般化を妨げる理由の 1 つは、エンコーダとデコーダの最上位層の表現が絡み合っていることであるという証拠が増えています。
言い換えれば、シーケンスの構文的および意味的表現が不適切にねじれているということです。
しかし、これまでの研究のほとんどは、人間が行うようにシーケンスの構文的および意味的表現を適切に構成して使用するのではなく、表現のもつれの問題を軽減するためにトークンレベルの意味論的情報を強化することに主に焦点を当てていました。
さらに、より深い Transformer のトレーニングに関する最近の研究の観点から、エンタングルメント問題が存在する理由を説明します。主な原因は、「浅い」残留接続と、前の層の情報を効果的に融合できない単純なワンステップ操作によるものです。
この発見から出発し、人間の戦略にインスピレーションを得て、私たちは、各エンコーダ層とデコーダ層に \emph{fuse-attention module} を導入することで、前の層の情報をエンコードおよびデコードのプロセスに適切に融合し戻す方法を学習するシーケンス間モデルの拡張である \textsc{FuSion} (\textbf{Fu}sing \textbf{S}yntactic and Semant\textbf{i}c Representati\textbf{on}s) を提案します。
\textsc{FuSion} は、2 つの現実的なベンチマークで競争力のある、さらには \textbf{最先端} の結果を達成しており、これは私たちの提案の有効性を実証的に示しています。
要約(オリジナル)
Despite successes across a broad range of applications, sequence-to-sequence models’ construct of solutions are argued to be less compositional than human-like generalization. There is mounting evidence that one of the reasons hindering compositional generalization is representations of the encoder and decoder uppermost layer are entangled. In other words, the syntactic and semantic representations of sequences are twisted inappropriately. However, most previous studies mainly concentrate on enhancing token-level semantic information to alleviate the representations entanglement problem, rather than composing and using the syntactic and semantic representations of sequences appropriately as humans do. In addition, we explain why the entanglement problem exists from the perspective of recent studies about training deeper Transformer, mainly owing to the “shallow” residual connections and its simple, one-step operations, which fails to fuse previous layers’ information effectively. Starting from this finding and inspired by humans’ strategies, we propose \textsc{FuSion} (\textbf{Fu}sing \textbf{S}yntactic and Semant\textbf{i}c Representati\textbf{on}s), an extension to sequence-to-sequence models to learn to fuse previous layers’ information back into the encoding and decoding process appropriately through introducing a \emph{fuse-attention module} at each encoder and decoder layer. \textsc{FuSion} achieves competitive and even \textbf{state-of-the-art} results on two realistic benchmarks, which empirically demonstrates the effectiveness of our proposal.
arxiv情報
著者 | Yafang Zheng,Lei Lin,Zhaohong Lai,Binling Wang,Shan Liu,Biao Fu,Wenhao Rao,Peigen Ye,Yidong Chen,Xiaodong Shi |
発行日 | 2023-07-20 12:01:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google