要約
トランスフォーマーベースのアーキテクチャは、自然言語理解に最適なモデルですが、入力長が 2 次の複雑さを持ち、大量のトレーニング データが必要で、調整が難しいため、かなりのコストがかかります。
低コストを追求するために、私たちはシンプルな MLP ベースのアーキテクチャを調査します。
各機能に個別に適用される静的 MLP を通じてトークン混合を実現する MLPMixer などの既存のアーキテクチャは、自然言語の理解に必要な帰納的バイアスからあまりにも切り離されていることがわかりました。
この論文では、ハイパーネットワークを使用して動的にトークン混合 MLP を形成する単純なバリアント HyperMixer を提案します。
経験的に、私たちのモデルは他の MLP ベースのモデルよりも優れており、Transformers と同等のパフォーマンスを発揮することが実証されています。
Transformers とは対照的に、HyperMixer は、処理時間、トレーニング データ、ハイパーパラメータ調整の点で大幅に低いコストでこれらの結果を実現します。
要約(オリジナル)
Transformer-based architectures are the model of choice for natural language understanding, but they come at a significant cost, as they have quadratic complexity in the input length, require a lot of training data, and can be difficult to tune. In the pursuit of lower costs, we investigate simple MLP-based architectures. We find that existing architectures such as MLPMixer, which achieves token mixing through a static MLP applied to each feature independently, are too detached from the inductive biases required for natural language understanding. In this paper, we propose a simple variant, HyperMixer, which forms the token mixing MLP dynamically using hypernetworks. Empirically, we demonstrate that our model performs better than alternative MLP-based models, and on par with Transformers. In contrast to Transformers, HyperMixer achieves these results at substantially lower costs in terms of processing time, training data, and hyperparameter tuning.
arxiv情報
著者 | Florian Mai,Arnaud Pannatier,Fabio Fehr,Haolin Chen,Francois Marelli,Francois Fleuret,James Henderson |
発行日 | 2023-11-13 16:39:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google