How transformers learn structured data: insights from hierarchical filtering

要約

学習プロセスと変換器に組み込まれた計算を理解することが、解釈可能な AI 開発の中心的な目標になりつつあります。
本研究では、ツリー上のシーケンスの生成モデルに階層的フィルタリング手順を導入し、データ内の位置相関の範囲を手動で調整できるようにします。
この制御された設定を活用して、ルート分類タスクとマスクされた言語モデリング タスクでトレーニングされた場合、バニラ エンコーダー専用トランスフォーマーが正確な推論アルゴリズムを近似できるという証拠を提供し、この計算がどのように発見され実装されるかを研究します。
階層の層の増加に対応する、より長い距離での相関が、トレーニング中にネットワークに順次含まれることがわかります。
さらに、さまざまな程度のフィルタリングでトレーニングされたモデルからのアテンション マップを比較し、さまざまなエンコーダー レベルを調査することによって、階層のさまざまなレベルに対応する連続した長さスケールでの相関関係の再構成の明確な証拠が見つかり、これはもっともらしいものと関連付けられます。
同じアーキテクチャ内での正確な推論アルゴリズムの実装。

要約(オリジナル)

Understanding the learning process and the embedded computation in transformers is becoming a central goal for the development of interpretable AI. In the present study, we introduce a hierarchical filtering procedure for generative models of sequences on trees, allowing us to hand-tune the range of positional correlations in the data. Leveraging this controlled setting, we provide evidence that vanilla encoder-only transformers can approximate the exact inference algorithm when trained on root classification and masked language modeling tasks, and study how this computation is discovered and implemented. We find that correlations at larger distances, corresponding to increasing layers of the hierarchy, are sequentially included by the network during training. Moreover, by comparing attention maps from models trained with varying degrees of filtering and by probing the different encoder levels, we find clear evidence of a reconstruction of correlations on successive length scales corresponding to the various levels of the hierarchy, which we relate to a plausible implementation of the exact inference algorithm within the same architecture.

arxiv情報

著者 Jerome Garnier-Brun,Marc Mézard,Emanuele Moscato,Luca Saglietti
発行日 2024-12-09 16:53:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cond-mat.stat-mech, cs.CL, cs.LG パーマリンク