Zoology: Measuring and Improving Recall in Efficient Language Models

要約

ゲーティングと畳み込みを組み合わせたアテンションフリー言語モデルは、その効率性とパフォーマンスの競争力の向上により人気が高まっています。
これらのアーキテクチャをより深く理解するために、17 のアテンションおよび「ゲート畳み込み」言語モデルのスイートを事前トレーニングしたところ、SoTA ゲート畳み込みアーキテクチャは依然として、パイル上で最大 2.1 の混乱ポイントだけアテンションを下回っていることがわかりました。
詳細な分析では、ギャップの 82% が、コンテキスト内で以前に言及された情報を想起する各モデルの能力によって説明されることがわかりました。
「ハクナ マタタは心配しないという意味です ハクナ マタタはノーという意味です’ $\rightarrow$ ‘??」
「連想想起」と呼ばれるこのタスクでは、注意力がゲート畳み込みよりも大幅に優れていることがわかりました。連想想起に関しては、7,000 万パラメーターの注意力モデルが 14 億パラメーターのゲート畳み込みモデルよりも優れています。
これまでの研究では、ゲート畳み込みが AR 機能の合成テストを完全に解決できることが示されているため、これは驚くべきことです。
合成言語と実際の言語の間のギャップを埋めるために、実際の言語をよりよく反映するマルチクエリ連想再現 (MQAR) と呼ばれるタスクの新しい形式化を開発しました。
我々は、注意のパラメータ効率とゲート畳み込み想起の違いを解明する MQAR の実証的および理論的研究を実行します。
私たちの分析に基づいて、単純な畳み込みと注意のハイブリッドを評価し、入力依存のまばらな注意パターンを持つハイブリッドは、二次二次スケーリングを維持しながら、注意までのギャップの 97.4% を埋めることができることを示します。
私たちのコードは https://github.com/HazyResearch/zoology からアクセスできます。

要約(オリジナル)

Attention-free language models that combine gating and convolutions are growing in popularity due to their efficiency and increasingly competitive performance. To better understand these architectures, we pretrain a suite of 17 attention and ‘gated-convolution’ language models, finding that SoTA gated-convolution architectures still underperform attention by up to 2.1 perplexity points on the Pile. In fine-grained analysis, we find 82% of the gap is explained by each model’s ability to recall information that is previously mentioned in-context, e.g. ‘Hakuna Matata means no worries Hakuna Matata it means no’ $\rightarrow$ ‘??’. On this task, termed ‘associative recall’, we find that attention outperforms gated-convolutions by a large margin: a 70M parameter attention model outperforms a 1.4 billion parameter gated-convolution model on associative recall. This is surprising because prior work shows gated convolutions can perfectly solve synthetic tests for AR capability. To close the gap between synthetics and real language, we develop a new formalization of the task called multi-query associative recall (MQAR) that better reflects actual language. We perform an empirical and theoretical study of MQAR that elucidates differences in the parameter-efficiency of attention and gated-convolution recall. Informed by our analysis, we evaluate simple convolution-attention hybrids and show that hybrids with input-dependent sparse attention patterns can close 97.4% of the gap to attention, while maintaining sub-quadratic scaling. Our code is accessible at: https://github.com/HazyResearch/zoology.

arxiv情報

著者 Simran Arora,Sabri Eyuboglu,Aman Timalsina,Isys Johnson,Michael Poli,James Zou,Atri Rudra,Christopher Ré
発行日 2023-12-08 09:44:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク