One-layer transformers fail to solve the induction heads task

要約

単純な通信の複雑さの議論は、そのサイズが 2 層変圧器に十分なサイズよりも指数関数的に大きくない限り、1 層変圧器では誘導ヘッドのタスクを解決できないことが証明されています。

要約(オリジナル)

A simple communication complexity argument proves that no one-layer transformer can solve the induction heads task unless its size is exponentially larger than the size sufficient for a two-layer transformer.

arxiv情報

著者 Clayton Sanford,Daniel Hsu,Matus Telgarsky
発行日 2024-08-26 15:01:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク