Attention as a Hypernetwork

要約

トランスフォーマーは、状況によっては、その構成部分がトレーニング中に遭遇したかもしれないが、その構成が遭遇していない新しい問題インスタンスに一般化することができます。
この構成的一般化能力の根底にあるメカニズムは何でしょうか?
マルチヘッド アテンションをハイパーネットワークとして再定式化することで、低次元の潜在コードがキークエリ固有の操作を指定していることを明らかにします。
この潜在コードは高度に構造化されており、ネットワークによって実行されるサブタスクに関する情報をキャプチャしていることが経験的にわかります。
注意のフレームワークをハイパーネットワークとして使用して、さまざまな抽象推論タスクの構成的一般化の能力を強化する、マルチヘッド線形注意の簡単な修正をさらに提案します。
特に、Raven Progressive Matrices 人間の知能テストのシンボリック バージョンを導入し、モデルのサイズとデータをスケーリングすることで構成の一般化がどのように可能になり、トランスフォーマー内で機能的に構造化された潜在コードを生成するかを実証します。

要約(オリジナル)

Transformers can under some circumstances generalize to novel problem instances whose constituent parts might have been encountered during training but whose compositions have not. What mechanisms underlie this ability for compositional generalization? By reformulating multi-head attention as a hypernetwork, we reveal that a low-dimensional latent code specifies key-query specific operations. We find empirically that this latent code is highly structured, capturing information about the subtasks performed by the network. Using the framework of attention as a hypernetwork we further propose a simple modification of multi-head linear attention that strengthens the ability for compositional generalization on a range of abstract reasoning tasks. In particular, we introduce a symbolic version of the Raven Progressive Matrices human intelligence test on which we demonstrate how scaling model size and data enables compositional generalization and gives rise to a functionally structured latent code in the transformer.

arxiv情報

著者 Simon Schug,Seijin Kobayashi,Yassir Akram,João Sacramento,Razvan Pascanu
発行日 2024-06-21 13:09:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク