要約
過去 10 年間、CNN はコンピューター ビジョンの世界で君臨してきましたが、最近では Transformer が台頭しています。
ただし、自己注意の二次計算コストは、実際のアプリケーションでは深刻な問題になっています。
このコンテキストでは、CNN と自己注意のないアーキテクチャに関する多くの研究が行われてきました。
特に、MLP-Mixer は MLP を使用して設計されたシンプルなアーキテクチャであり、Vision Transformer に匹敵する精度を達成しています。
ただし、このアーキテクチャの唯一の誘導バイアスは、トークンの埋め込みです。
これにより、非畳み込み (または非ローカル) 誘導バイアスをアーキテクチャに組み込む可能性が残されているため、2 つの単純なアイデアを使用して誘導バイアスを MLP-Mixer に組み込み、グローバル相関をキャプチャする能力を利用しました。
トークン混合ブロックを縦横に分割する方法があります。
別の方法は、トークン混合のいくつかのチャネル間で空間相関をより密にすることです。
このアプローチにより、パラメータと計算の複雑さを軽減しながら、MLP-Mixer の精度を向上させることができました。
RaftMLP-S である小さなモデルは、パラメーターと計算あたりの効率の点で、最先端のグローバル MLP ベースのモデルに匹敵します。
さらに、バイキュービック補間を利用することで、グローバル MLP ベースのモデルの固定入力画像解像度の問題に取り組みました。
これらのモデルが、オブジェクト検出などのダウンストリーム タスクのアーキテクチャのバックボーンとして適用できることを実証しました。
ただし、パフォーマンスはそれほど高くなく、グローバル MLP ベースのモデルのダウンストリーム タスクには MLP 固有のアーキテクチャが必要であると述べています。
PyTorch 版のソースコードは \url{https://github.com/okojoalg/raft-mlp} にあります。
要約(オリジナル)
For the past ten years, CNN has reigned supreme in the world of computer vision, but recently, Transformer has been on the rise. However, the quadratic computational cost of self-attention has become a serious problem in practice applications. There has been much research on architectures without CNN and self-attention in this context. In particular, MLP-Mixer is a simple architecture designed using MLPs and hit an accuracy comparable to the Vision Transformer. However, the only inductive bias in this architecture is the embedding of tokens. This leaves open the possibility of incorporating a non-convolutional (or non-local) inductive bias into the architecture, so we used two simple ideas to incorporate inductive bias into the MLP-Mixer while taking advantage of its ability to capture global correlations. A way is to divide the token-mixing block vertically and horizontally. Another way is to make spatial correlations denser among some channels of token-mixing. With this approach, we were able to improve the accuracy of the MLP-Mixer while reducing its parameters and computational complexity. The small model that is RaftMLP-S is comparable to the state-of-the-art global MLP-based model in terms of parameters and efficiency per calculation. In addition, we tackled the problem of fixed input image resolution for global MLP-based models by utilizing bicubic interpolation. We demonstrated that these models could be applied as the backbone of architectures for downstream tasks such as object detection. However, it did not have significant performance and mentioned the need for MLP-specific architectures for downstream tasks for global MLP-based models. The source code in PyTorch version is available at \url{https://github.com/okojoalg/raft-mlp}.
arxiv情報
著者 | Yuki Tatsunami,Masato Taki |
発行日 | 2023-01-12 14:04:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google