When can transformers reason with abstract symbols?

要約

私たちは、関係推論タスクにおける変圧器モデルの機能を調査します。
これらのタスクでは、抽象関係をエンコードする文字列のセットでモデルがトレーニングされ、トレーニング データセットに現れなかったシンボルを含むデータの分布外でテストされます。
私たちは、大規模なタスク群に含まれるあらゆる関係推論タスクについて、十分に大量のトレーニング データに対して勾配降下法によってトレーニングすると、トランスフォーマーが抽象的な関係を学習し、テスト セットに一般化することを証明します。
これは、私たちが論理的に学習できないことが証明されている古典的な完全接続ネットワークとは対照的です。
私たちの結果は、頭ごとに 2 つのトレーニング可能なパラメータのみを追加するトランスフォーマー アーキテクチャの変更を促し、推論学習のデータ効率が向上することを経験的に実証しました。

要約(オリジナル)

We investigate the capabilities of transformer models on relational reasoning tasks. In these tasks, models are trained on a set of strings encoding abstract relations, and are then tested out-of-distribution on data that contains symbols that did not appear in the training dataset. We prove that for any relational reasoning task in a large family of tasks, transformers learn the abstract relations and generalize to the test set when trained by gradient descent on sufficiently large quantities of training data. This is in contrast to classical fully-connected networks, which we prove fail to learn to reason. Our results inspire modifications of the transformer architecture that add only two trainable parameters per head, and that we empirically demonstrate improve data efficiency for learning to reason.

arxiv情報

著者 Enric Boix-Adsera,Omid Saremi,Emmanuel Abbe,Samy Bengio,Etai Littwin,Joshua Susskind
発行日 2024-04-16 17:53:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク