要約
ビジョン トランスフォーマーは、さまざまなビジョン タスクで広く使用されています。
一方、MLP ベースのアーキテクチャを使用して同様のパフォーマンスを達成しようとする MLP ミキサーから始まる別の一連の作業があります。
興味深いことに、これまで NLP タスクにそれらを使用したと報告されたものはありませんでした。また、視覚タスクで最先端を達成すると主張する mlp ベースのアーキテクチャは今までにありませんでした。
この論文では、複数の異なる入力間の依存関係を同時にモデル化する際の mlp ベースのアーキテクチャの表現力を分析し、注意と mlp ベースのメカニズムの間の指数関数的なギャップを示します。
私たちの結果は、NLPの問題でmlpが注意ベースのメカニズムと競合できないことの理論的説明を示唆しています。また、ビジョンタスクのパフォーマンスギャップは、複数の異なる場所間の依存関係をモデル化する際のmlpの相対的な弱さに起因する可能性があることも示唆しています。
mlp アーキテクチャへのスマートな入力順列だけでは、パフォーマンスのギャップを埋めるのに十分ではない場合があります。
要約(オリジナル)
Vision-Transformers are widely used in various vision tasks. Meanwhile, there is another line of works starting with the MLP-mixer trying to achieve similar performance using mlp-based architectures. Interestingly, until now none reported using them for NLP tasks, additionally until now non of those mlp-based architectures claimed to achieve state-of-the-art in vision tasks. In this paper, we analyze the expressive power of mlp-based architectures in modeling dependencies between multiple different inputs simultaneously, and show an exponential gap between the attention and the mlp-based mechanisms. Our results suggest a theoretical explanation for the mlp inability to compete with attention-based mechanisms in NLP problems, they also suggest that the performance gap in vision tasks may be due to the mlp relative weakness in modeling dependencies between multiple different locations, and that combining smart input permutations to the mlp architectures may not suffice alone to close the performance gap.
arxiv情報
著者 | Dan Navon,Alex M. Bronstein |
発行日 | 2022-08-17 09:59:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google