Learning to Compose Representations of Different Encoder Layers towards Improving Compositional Generalization

要約

最近の研究では、シーケンス間 (seq2seq) モデルは、構成一般化 (CG)、つまり、目に見えるコンポーネントの目に見えない構成を系統的に一般化する能力に問題があることが示されています。
CG を妨げる理由の 1 つは、エンコーダの最上位層の表現がもつれている、つまり、シーケンスの構文表現と意味表現がもつれていることであるという証拠が増えています。
ただし、以前に特定された表現のもつれの問題は十分に包括的ではないと考えています。
さらに、さまざまなデコーダー層に渡されるソースのキーと値の表現ももつれていると仮説を立てます。
この直観から出発して、私たちは、
最近の研究では、Transformer エンコーダの最下層にはより多くの構文情報が含まれ、最上位層にはより多くの意味情報が含まれていることが明らかになっているため、さまざまなタスクに対してさまざまなエンコーダ層の表現を動的に構成します。
具体的には、エンコーダとデコーダの間に \textit{合成層} を導入して、異なるエンコーダ層の表現を合成し、異なるデコーダ層に渡す特定のキーと値を生成します。
\textsc{CompoSition} は、2 つの包括的で現実的なベンチマークで競合する結果を達成しており、これは私たちの提案の有効性を実証的に示しています。
コードは~\url{https://github.com/thinkaboutzero/COMPOSITION}で入手できます。

要約(オリジナル)

Recent studies have shown that sequence-to-sequence (seq2seq) models struggle with compositional generalization (CG), i.e., the ability to systematically generalize to unseen compositions of seen components. There is mounting evidence that one of the reasons hindering CG is the representation of the encoder uppermost layer is entangled, i.e., the syntactic and semantic representations of sequences are entangled. However, we consider that the previously identified representation entanglement problem is not comprehensive enough. Additionally, we hypothesize that the source keys and values representations passing into different decoder layers are also entangled. Starting from this intuition, we propose \textsc{CompoSition} (\textbf{Compo}se \textbf{S}yntactic and Semant\textbf{i}c Representa\textbf{tion}s), an extension to seq2seq models which learns to compose representations of different encoder layers dynamically for different tasks, since recent studies reveal that the bottom layers of the Transformer encoder contain more syntactic information and the top ones contain more semantic information. Specifically, we introduce a \textit{composed layer} between the encoder and decoder to compose different encoder layers’ representations to generate specific keys and values passing into different decoder layers. \textsc{CompoSition} achieves competitive results on two comprehensive and realistic benchmarks, which empirically demonstrates the effectiveness of our proposal. Codes are available at~\url{https://github.com/thinkaboutzero/COMPOSITION}.

arxiv情報

著者 Lei Lin,Shuangtao Li,Yafang Zheng,Biao Fu,Shan Liu,Yidong Chen,Xiaodong Shi
発行日 2023-10-18 14:19:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク