Masked Mixers for Language Generation and Retrieval

要約

入力要素の厳密なサブセットに選択的に焦点を当てる注意メカニズムは、今日の言語モデルではほぼ遍在しています。
私たちは注意の使用に欠点があると仮定します:ほとんどの入力情報は失われます。
このアイデアをサポートして、変圧器の入力表現の精度が不十分であり、マスクミキサーと呼ばれるもののより正確な表現を観察します。
マスクされたミキサーは、初期の変圧器の実装よりも効率的に因果言語モデリングを学習し、小型でトレーニングするときに最適化された現在の変圧器よりも優れています($ n_ {ctx} <512 $)が、より大きなコンテキストウィンドウではありません。 さまざまなタスクの変圧器とマスクされたミキサートレーニング効率の違いが、入力表現の精度、または同等にグローバルな反転性によって最もよく予測されるという仮説の証拠が提示されています。 トランスが示す情報の損失は、生成よりも検索に対してより有害であると仮定します。前者は、生物物語、したがって反転可能な機能によってより密接に近似されているためです。 マスクされたミキサーは、前処理された埋め込みモデルが変更されていない場合と、埋め込みモデルがコサインの類似性ベースのインフォンセ損失の最小化を介して変更されたときの両方で、より効果的な検索モデルであることがわかります。 後者は、より多くのデータと計算で訓練されているにもかかわらず、小さなマスクミキサーが大規模で最先端の変圧器ベースの検索モデルよりも優れていることが示されています。

要約(オリジナル)

Attention mechanisms that confer selective focus on a strict subset of input elements are nearly ubiquitous in language models today. We posit there to be downside to the use of attention: most input information is lost. In support of this idea we observe poor input representation accuracy in transformers and more accurate representation in what we term masked mixers, which replace self-attention with masked convolutions. The masked mixer learns causal language modeling more efficiently than early transformer implementations and even outperforms optimized, current transformers when training on small ($n_{ctx}<512$) but not larger context windows. Evidence is presented for the hypothesis that differences in transformer and masked mixer training efficiencies for various tasks are best predicted by input representation accuracy, or equivalently global invertibility. We hypothesize that the information loss exhibited by transformers would be more detrimental to retrieval than generation, as the former is more closely approximated by a bijective and thus invertible function. We find that masked mixers are more effective retrieval models both when the pretrained embedding model is unchanged as well as when the embedding model is modified via cosine similarity-based InfoNCE loss minimization. A small masked mixer is shown to outperform a large and near state-of-the-art transformer-based retrieval model, despite the latter being trained with many orders of magnitude more data and compute.

arxiv情報

著者 Benjamin L. Badger
発行日 2025-03-20 17:39:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク