要約
Transformers は NLP タスクで優れたパフォーマンスを発揮するという事実にもかかわらず、最近の研究では、一部の通常言語や文脈自由言語の学習においても理論的には自注意力が制限されていることが示唆されています。
これらの発見は、軽度の文脈依存性であると仮定されている自然言語のモデリングにおけるそれらの影響について考えるきっかけになりました。
私たちは、さまざまな複雑さの軽度の文脈依存型言語を学習する Transformer の能力をテストし、それらの言語が目に見えない配布データに対してうまく一般化できることを発見しましたが、より長い文字列を推定する能力は LSTM の能力より劣っています。
私たちの分析は、学習された自己注意のパターンと表現が依存関係をモデル化し、数を数える行動を示し、それがモデルが言語を解決するのに役立っている可能性があることを示しています。
要約(オリジナル)
Despite the fact that Transformers perform well in NLP tasks, recent studies suggest that self-attention is theoretically limited in learning even some regular and context-free languages. These findings motivated us to think about their implications in modeling natural language, which is hypothesized to be mildly context-sensitive. We test the Transformer’s ability to learn mildly context-sensitive languages of varying complexities, and find that they generalize well to unseen in-distribution data, but their ability to extrapolate to longer strings is worse than that of LSTMs. Our analyses show that the learned self-attention patterns and representations modeled dependency relations and demonstrated counting behavior, which may have helped the models solve the languages.
arxiv情報
著者 | Shunjie Wang,Shane Steinert-Threlkeld |
発行日 | 2023-10-19 11:41:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google