Inducing Systematicity in Transformers by Attending to Structurally Quantized Embeddings

要約

トランスフォーマーは、複雑なデータセットでトレーニングされた後、構造とエンティティの新しい構成に一般化しますが、複雑さが不十分なデータセットでは簡単にオーバーフィットします。
トレーニング セットが十分に複雑な場合、モデルは系統的な注意パターンを使用して共通の構文構造を持つ文をエンコードすることがわかります。
この観察に触発されて、複雑さの低いトレーニング セットであっても、埋め込み層とアテンション層の体系性を明示的に促進する SQ トランスフォーマー (構造的に量子化) を提案します。
埋め込みレベルでは、構造指向ベクトル量子化 (SoVQ) を導入して、単語の埋め込みを構造的に同等のエンティティのいくつかのクラスにクラスタリングします。
注意レベルでは、同じ構造の文が不変または同様の注意パターンでエンコードされるように、量子化された単語の埋め込みを操作する体系的注意層 (SAL) と代替の体系的正規化層 (SRL) を考案します。
経験的に、SQ-Transformer は、複数の低複雑性のセマンティック解析および機械翻訳データセットにおいて、通常の Transformer よりも強力な構成一般化を達成することを示しています。
私たちの分析では、SoVQ が実際に構文的にクラスター化された埋め込み空間を学習し、SAL/SRL が一般化可能な注意パターンを誘導し、それが体系性の向上につながることを示しました。

要約(オリジナル)

Transformers generalize to novel compositions of structures and entities after being trained on a complex dataset, but easily overfit on datasets of insufficient complexity. We observe that when the training set is sufficiently complex, the model encodes sentences that have a common syntactic structure using a systematic attention pattern. Inspired by this observation, we propose SQ-Transformer (Structurally Quantized) that explicitly encourages systematicity in the embeddings and attention layers, even with a training set of low complexity. At the embedding level, we introduce Structure-oriented Vector Quantization (SoVQ) to cluster word embeddings into several classes of structurally equivalent entities. At the attention level, we devise the Systematic Attention Layer (SAL) and an alternative, Systematically Regularized Layer (SRL) that operate on the quantized word embeddings so that sentences of the same structure are encoded with invariant or similar attention patterns. Empirically, we show that SQ-Transformer achieves stronger compositional generalization than the vanilla Transformer on multiple low-complexity semantic parsing and machine translation datasets. In our analysis, we show that SoVQ indeed learns a syntactically clustered embedding space and SAL/SRL induces generalizable attention patterns, which lead to improved systematicity.

arxiv情報

著者 Yichen Jiang,Xiang Zhou,Mohit Bansal
発行日 2024-02-09 15:53:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク