要約
最新の階層型ビジョン トランスフォーマーには、教師付き分類パフォーマンスを追求するために、いくつかのビジョン固有のコンポーネントが追加されています。
これらのコンポーネントは有効な精度と魅力的な FLOP カウントにつながりますが、追加された複雑さにより実際には、これらのトランスは通常の ViT トランスよりも遅くなります。
この論文では、この追加の容量は不要であると主張します。
強力な視覚的口実タスク (MAE) を使用して事前トレーニングすることにより、精度を損なうことなく、最先端の多段階ビジョン トランスフォーマーから付加機能をすべて取り除くことができます。
その過程で、私たちは Hiera を作成しました。これは、以前のモデルよりも正確でありながら、推論とトレーニング中の両方で大幅に高速な、非常にシンプルな階層型ビジョン トランスフォーマーです。
画像およびビデオ認識のさまざまなタスクに関して Hiera を評価します。
コードとモデルは https://github.com/facebookresearch/hiera で入手できます。
要約(オリジナル)
Modern hierarchical vision transformers have added several vision-specific components in the pursuit of supervised classification performance. While these components lead to effective accuracies and attractive FLOP counts, the added complexity actually makes these transformers slower than their vanilla ViT counterparts. In this paper, we argue that this additional bulk is unnecessary. By pretraining with a strong visual pretext task (MAE), we can strip out all the bells-and-whistles from a state-of-the-art multi-stage vision transformer without losing accuracy. In the process, we create Hiera, an extremely simple hierarchical vision transformer that is more accurate than previous models while being significantly faster both at inference and during training. We evaluate Hiera on a variety of tasks for image and video recognition. Our code and models are available at https://github.com/facebookresearch/hiera.
arxiv情報
著者 | Chaitanya Ryali,Yuan-Ting Hu,Daniel Bolya,Chen Wei,Haoqi Fan,Po-Yao Huang,Vaibhav Aggarwal,Arkabandhu Chowdhury,Omid Poursaeed,Judy Hoffman,Jitendra Malik,Yanghao Li,Christoph Feichtenhofer |
発行日 | 2023-06-01 17:59:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google