How transformers learn structured data: insights from hierarchical filtering

要約

ツリー上のシーケンスの生成モデルに階層的フィルタリング手順を導入し、データ内の位置相関の範囲の制御を可能にします。
この制御された設定を活用することで、バニラ エンコーダのみのトランスフォーマ アーキテクチャが、ルート分類タスクとマスク言語モデリング タスクの両方で最適な信念伝播アルゴリズムを実装できるという証拠を提供します。
ネットワークがトレーニングされるにつれて、階層の層の増加に対応するより大きな距離での相関が順次含まれます。
さまざまな程度のフィルタリングでトレーニングされたモデルからのアテンション マップに焦点を当てて、トランスフォーマー層がどのように成功するかを分析します。
これらのアテンション マップは、相関関係の反復的な階層的再構築の明確な証拠を示しており、これらの観察結果を、考慮されているネットワーク サイズに対する正確な推論アルゴリズムの妥当な実装に関連付けることができます。

要約(オリジナル)

We introduce a hierarchical filtering procedure for generative models of sequences on trees, enabling control over the range of positional correlations in the data. Leveraging this controlled setting, we provide evidence that vanilla encoder-only transformer architectures can implement the optimal Belief Propagation algorithm on both root classification and masked language modeling tasks. Correlations at larger distances corresponding to increasing layers of the hierarchy are sequentially included as the network is trained. We analyze how the transformer layers succeed by focusing on attention maps from models trained with varying degrees of filtering. These attention maps show clear evidence for iterative hierarchical reconstruction of correlations, and we can relate these observations to a plausible implementation of the exact inference algorithm for the network sizes considered.

arxiv情報

著者 Jerome Garnier-Brun,Marc Mézard,Emanuele Moscato,Luca Saglietti
発行日 2024-08-27 15:23:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cond-mat.stat-mech, cs.CL, cs.LG パーマリンク