ResFormer: Scaling ViTs with Multi-Resolution Training

要約

ビジョン トランスフォーマー (ViT) は圧倒的な成功を収めていますが、解像度のスケーラビリティが脆弱であるという問題があります。つまり、トレーニング中に見えない入力解像度が提示されると、パフォーマンスが大幅に低下します。
ResFormer は、マルチ解像度トレーニングの独創的なアイデアに基づいて構築されたフレームワークであり、ほとんど目に見えないさまざまなテスト解像度でパフォーマンスを向上させます。
特に、ResFormer は、異なる解像度の複製された画像で動作し、スケールの一貫性の喪失を強制して、異なるスケール間でインタラクティブな情報を利用します。
さらに重要なことは、さまざまな解像度を交互に切り替えるために、入力サイズに応じてスムーズに変化するグローバルローカル位置埋め込み戦略を提案することです。
これにより、ResFormer は新しい解像度に効果的に対処できます。
ImageNet で画像分類の広範な実験を行っています。
この結果は、ResFormer が広範囲の解像度に向けて有望なスケーリング能力を持っているという強力な定量的証拠を提供します。
たとえば、ResFormer-B-MR は、比較的低い解像度と高い解像度 (つまり、96 と 640) で評価した場合、それぞれ 75.86% と 81.72% のトップ 1 精度を達成し、DeiT-B よりも 48% と 7.49% 優れています。
また、とりわけ、ResFormer は柔軟で、セマンティック セグメンテーションやビデオ アクション認識に簡単に拡張できることも示しています。

要約(オリジナル)

Vision Transformers (ViTs) have achieved overwhelming success, yet they suffer from vulnerable resolution scalability, i.e., the performance drops drastically when presented with input resolutions that are unseen during training. We introduce, ResFormer, a framework that is built upon the seminal idea of multi-resolution training for improved performance on a wide spectrum of, mostly unseen, testing resolutions. In particular, ResFormer operates on replicated images of different resolutions and enforces a scale consistency loss to engage interactive information across different scales. More importantly, to alternate among varying resolutions, we propose a global-local positional embedding strategy that changes smoothly conditioned on input sizes. This allows ResFormer to cope with novel resolutions effectively. We conduct extensive experiments for image classification on ImageNet. The results provide strong quantitative evidence that ResFormer has promising scaling abilities towards a wide range resolutions. For instance, ResFormer-B-MR achieves a Top-1 accuracy of 75.86% and 81.72% when evaluated on relatively low and high resolutions respectively (i.e., 96 and 640), which are 48% and 7.49% better than DeiT-B. We also demonstrate, among other things, ResFormer is flexible and can be easily extended to semantic segmentation and video action recognition.

arxiv情報

著者 Rui Tian,Zuxuan Wu,Qi Dai,Han Hu,Yu Qiao,Yu-Gang Jiang
発行日 2022-12-01 18:57:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク