要約
トランスフォーマーは一般に、自然言語処理タスクとオンラインの人間の言語理解に対する予測可能性の効果のモデル化の両方の主要なアーキテクチャとしてリカレント ニューラル ネットワークに取って代わりました。
ただし、最近開発された 2 つのリカレント モデル アーキテクチャ、RWKV と Mamba は、同等の規模のトランスフォーマーと同等かそれ以上に自然言語タスクを実行するようです。
この論文では、現代のリカレント モデルが、オンラインでの人間の言語理解のモデリングにおいて、同等のサイズの変換器のパフォーマンスに匹敵し、場合によってはそれを上回ることができることを示します。
これは、トランスフォーマー言語モデルがこのタスクに固有に適しているわけではないことを示唆しており、言語モデルのアーキテクチャ上の特徴が人間の言語理解のモデルをどの程度良くするか悪くするかについての議論に新たな方向性を切り開きます。
要約(オリジナル)
Transformers have generally supplanted recurrent neural networks as the dominant architecture for both natural language processing tasks and for modelling the effect of predictability on online human language comprehension. However, two recently developed recurrent model architectures, RWKV and Mamba, appear to perform natural language tasks comparably to or better than transformers of equivalent scale. In this paper, we show that contemporary recurrent models are now also able to match – and in some cases, exceed – the performance of comparably sized transformers at modeling online human language comprehension. This suggests that transformer language models are not uniquely suited to this task, and opens up new directions for debates about the extent to which architectural features of language models make them better or worse models of human language comprehension.
arxiv情報
著者 | James A. Michaelov,Catherine Arnett,Benjamin K. Bergen |
発行日 | 2024-08-26 15:59:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google