要約
ビジョン トランスフォーマーは、さまざまなビジョン タスクで広く使用されています。
一方、MLP ベースのアーキテクチャを使用して同様のパフォーマンスを達成しようとする MLP ミキサーから始まる別の一連の作業があります。
興味深いことに、これまでこれらの mlp ベースのアーキテクチャは NLP タスクに適応されていませんでした。
さらに、これまで mlp ベースのアーキテクチャは、ビジョン タスクで最先端のパフォーマンスを達成できませんでした。
この論文では、複数の異なる入力間の依存関係を同時にモデル化する際の mlp ベースのアーキテクチャの表現力を分析し、注意と mlp ベースのメカニズムの間の指数関数的なギャップを示します。
私たちの結果は、NLPの問題でmlpが注意ベースのメカニズムと競合できないことの理論的説明を示唆しています。また、ビジョンタスクのパフォーマンスギャップは、複数の異なる場所間の依存関係をモデル化する際のmlpの相対的な弱さに起因する可能性があることも示唆しています。
mlp アーキテクチャを使用したスマートな入力順列だけでは、パフォーマンスのギャップを埋めるには不十分な場合があります。
要約(オリジナル)
Vision-Transformers are widely used in various vision tasks. Meanwhile, there is another line of works starting with the MLP-mixer trying to achieve similar performance using mlp-based architectures. Interestingly, until now those mlp-based architectures have not been adapted for NLP tasks. Additionally, until now, mlp-based architectures have failed to achieve state-of-the-art performance in vision tasks. In this paper, we analyze the expressive power of mlp-based architectures in modeling dependencies between multiple different inputs simultaneously, and show an exponential gap between the attention and the mlp-based mechanisms. Our results suggest a theoretical explanation for the mlp inability to compete with attention-based mechanisms in NLP problems, they also suggest that the performance gap in vision tasks may be due to the mlp relative weakness in modeling dependencies between multiple different locations, and that combining smart input permutations with mlp architectures may not be enough to close the performance gap alone.
arxiv情報
著者 | Dan Navon,Alex M. Bronstein |
発行日 | 2022-11-17 12:50:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google