Simplicity Bias in Transformers and their Ability to Learn Sparse Boolean Functions

要約

NLP タスクでは Transformers が広く成功を収めているにもかかわらず、最近の研究では、再帰型モデルと比較した場合、いくつかの形式言語をモデル化するのに苦労していることがわかっています。
これにより、Transformers が実際になぜうまく機能するのか、また、Transformers にはリカレント モデルよりも優れた一般化を可能にする何らかの特性があるのか​​という疑問が生じます。
この研究では、ブール関数に関する広範な実証研究を実施して、次のことを実証します。 (i) ランダム変換器は、感度の低い関数に比較的偏っています。
(ii) ブール関数でトレーニングされる場合、トランスフォーマーと LSTM はどちらも感度の低い関数の学習を優先し、トランスフォーマーは最終的に感度の低い関数に収束します。
(iii) 感度が低いスパースなブール関数では、トランスフォーマーはノイズの多いラベルの存在下でもほぼ完全に一般化するのに対し、LSTM はオーバーフィットして一般化の精度が低いことがわかります。
全体として、私たちの結果は、Transformer とリカレント モデルの誘導バイアスの違いを示唆する強力な定量化可能な証拠を提供し、表現力が比較的限られているにもかかわらず、Transformer の効果的な汎化パフォーマンスを説明するのに役立つ可能性があります。

要約(オリジナル)

Despite the widespread success of Transformers on NLP tasks, recent works have found that they struggle to model several formal languages when compared to recurrent models. This raises the question of why Transformers perform well in practice and whether they have any properties that enable them to generalize better than recurrent models. In this work, we conduct an extensive empirical study on Boolean functions to demonstrate the following: (i) Random Transformers are relatively more biased towards functions of low sensitivity. (ii) When trained on Boolean functions, both Transformers and LSTMs prioritize learning functions of low sensitivity, with Transformers ultimately converging to functions of lower sensitivity. (iii) On sparse Boolean functions which have low sensitivity, we find that Transformers generalize near perfectly even in the presence of noisy labels whereas LSTMs overfit and achieve poor generalization accuracy. Overall, our results provide strong quantifiable evidence that suggests differences in the inductive biases of Transformers and recurrent models which may help explain Transformer’s effective generalization performance despite relatively limited expressiveness.

arxiv情報

著者 Satwik Bhattamishra,Arkil Patel,Varun Kanade,Phil Blunsom
発行日 2023-07-10 17:15:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク