Win-Win: Training High-Resolution Vision Transformers from Two Windows

要約

トランスフォーマーは最先端のビジョン アーキテクチャの標準となっており、画像レベルのタスクと高密度のピクセル単位のタスクの両方で優れたパフォーマンスを実現します。
ただし、高解像度のピクセル単位のタスク用にビジョン トランスフォーマーをトレーニングするには、法外なコストがかかります。
典型的なソリューションは、階層構造、迅速かつおおよその注意力、または低解像度の作物に対するトレーニングに要約されます。
この後者のソリューションはアーキテクチャの選択を制限しませんが、トレーニングに使用される解像度よりも大幅に高い解像度でテストすると明らかなパフォーマンスの低下につながるため、アドホックで遅い後処理スキームが必要になります。
この論文では、高解像度ビジョントランスフォーマーの効率的なトレーニングと推論のための新しい戦略を提案します。
重要な原則は、トレーニング中に高解像度入力のほとんどをマスクし、N 個のランダム ウィンドウのみを保持することです。
これにより、モデルは各ウィンドウ内のトークン間のローカルな相互作用と、異なるウィンドウからのトークン間のグローバルな相互作用を学習できるようになります。
その結果、モデルは特別なトリックを必要とせずに、テスト時に高解像度の入力を直接処理できます。
この戦略は、回転埋め込みなどの相対位置埋め込みを使用する場合に効果的であることを示します。
フル解像度のネットワークよりもトレーニングが 4 倍速く、既存のアプローチと比較してテスト時に簡単に使用できます。
この戦略を高解像度データを使用した 3 つの密な予測タスクに適用します。
まず、セマンティック セグメンテーションのタスクについて、2 つのウィンドウを使用した単純な設定が最高のパフォーマンスを発揮することを示します。そのため、このメソッドの名前は Win-Win です。
次に、単眼の深度予測のタスクについてこの結果を確認します。
3 番目に、これをオプティカル フローの両眼タスクにさらに拡張し、フル HD 画像を含む Spring ベンチマークで最高の競合他社よりも桁違いに速い推論を備えた最先端のパフォーマンスに到達しました。

要約(オリジナル)

Transformers have become the standard in state-of-the-art vision architectures, achieving impressive performance on both image-level and dense pixelwise tasks. However, training vision transformers for high-resolution pixelwise tasks has a prohibitive cost. Typical solutions boil down to hierarchical architectures, fast and approximate attention, or training on low-resolution crops. This latter solution does not constrain architectural choices, but it leads to a clear performance drop when testing at resolutions significantly higher than that used for training, thus requiring ad-hoc and slow post-processing schemes. In this paper, we propose a novel strategy for efficient training and inference of high-resolution vision transformers. The key principle is to mask out most of the high-resolution inputs during training, keeping only N random windows. This allows the model to learn local interactions between tokens inside each window, and global interactions between tokens from different windows. As a result, the model can directly process the high-resolution input at test time without any special trick. We show that this strategy is effective when using relative positional embedding such as rotary embeddings. It is 4 times faster to train than a full-resolution network, and it is straightforward to use at test time compared to existing approaches. We apply this strategy to three dense prediction tasks with high-resolution data. First, we show on the task of semantic segmentation that a simple setting with 2 windows performs best, hence the name of our method: Win-Win. Second, we confirm this result on the task of monocular depth prediction. Third, we further extend it to the binocular task of optical flow, reaching state-of-the-art performance on the Spring benchmark that contains Full-HD images with an order of magnitude faster inference than the best competitor.

arxiv情報

著者 Vincent Leroy,Jerome Revaud,Thomas Lucas,Philippe Weinzaepfel
発行日 2024-03-22 15:38:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク