Bidirectional Attention as a Mixture of Continuous Word Experts

要約

位置エンコーディングによる自己注意とマスク言語モデル (MLM) の目標 $\unicode{x2013}$ で構​​成される双方向の注意 $\unicode{x2013}$ は、最新の大規模言語モデル (LLM) の重要なコンポーネントとして浮上しています。
実証的な成功にもかかわらず、その統計的基礎を調査した研究はほとんどありません。つまり、双方向の注意が暗黙的に適合する統計モデルは何でしょうか?
注目を集めなかった前作と何が違うのでしょうか?
この文書ではこれらの疑問を検討します。
重要な観察は、再パラメータ化時に単層単一頭双方向注意をフィッティングすることは、専門家混合 (MoE) 重みを使用して連続バッグ オブ ワード (CBOW) モデルをフィッティングすることと同等であるということです。
さらに、複数のヘッドと複数の層による双方向の注意は、それぞれ、積層された MoE と MoE の混合に相当します。
この統計的な観点からは、双方向の注意における MoE の明確な使用法が明らかになり、これは異種データの処理における実際の有効性と一致しています。
また、文中の各単語の位置を表形式の特徴として見る場合、カテゴリ表形式データを即座に拡張できることも示唆されています。
実証研究全体を通じて、この拡張は、配布外 (OOD) 一般化において変圧器の既存の表形式の拡張よりも優れていることがわかりました。
最後に、この双方向注意の統計的観点により、単語の埋め込みに線形単語の類似性が存在する場合を理論的に特徴付けることができます。
これらの分析は、双方向の注意が直線的な単語の類似性を示すためには、注意を持たない先行者よりもはるかに強力な仮定を必要とする可能性があることを示しています。

要約(オリジナル)

Bidirectional attention $\unicode{x2013}$ composed of self-attention with positional encodings and the masked language model (MLM) objective $\unicode{x2013}$ has emerged as a key component of modern large language models (LLMs). Despite its empirical success, few studies have examined its statistical underpinnings: What statistical model is bidirectional attention implicitly fitting? What sets it apart from its non-attention predecessors? We explore these questions in this paper. The key observation is that fitting a single-layer single-head bidirectional attention, upon reparameterization, is equivalent to fitting a continuous bag of words (CBOW) model with mixture-of-experts (MoE) weights. Further, bidirectional attention with multiple heads and multiple layers is equivalent to stacked MoEs and a mixture of MoEs, respectively. This statistical viewpoint reveals the distinct use of MoE in bidirectional attention, which aligns with its practical effectiveness in handling heterogeneous data. It also suggests an immediate extension to categorical tabular data, if we view each word location in a sentence as a tabular feature. Across empirical studies, we find that this extension outperforms existing tabular extensions of transformers in out-of-distribution (OOD) generalization. Finally, this statistical perspective of bidirectional attention enables us to theoretically characterize when linear word analogies are present in its word embeddings. These analyses show that bidirectional attention can require much stronger assumptions to exhibit linear word analogies than its non-attention predecessors.

arxiv情報

著者 Kevin Christian Wibisono,Yixin Wang
発行日 2023-07-08 23:25:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク