要約
ウィンドウ アテンション、位置埋め込み、および高解像度微調整は、コンピューター ビジョンの現代のトランスフォーマー時代の中核概念です。
しかし、これらのほぼユビキタスなコンポーネントを単純に組み合わせると、パフォーマンスに悪影響を与える可能性があることがわかりました。
問題は単純です。ウィンドウ アテンションを使用しながら位置埋め込みを補間するのは間違っています。
私たちは、これら 3 つのコンポーネントを備えた 2 つの最先端のメソッド、つまり Hiera と ViTDet を研究し、どちらも実際にこのバグに悩まされていることがわかりました。
これを修正するために、単純な絶対ウィンドウ位置埋め込み戦略を導入します。これにより、Hiera のバグが完全に解決され、ViTDet のモデルの速度とパフォーマンスの両方を向上させることができます。
最終的に 2 つを組み合わせて HieraDet を取得します。これは COCO で 61.7 ボックス mAP を達成し、ImageNet-1k 事前トレーニングのみを使用するモデルにとっては最先端のものになります。
これはすべて、本質的に 3 行のバグ修正に由来しており、これを「絶対的な勝利」と名付けています。
要約(オリジナル)
Window attention, position embeddings, and high resolution finetuning are core concepts in the modern transformer era of computer vision. However, we find that naively combining these near ubiquitous components can have a detrimental effect on performance. The issue is simple: interpolating position embeddings while using window attention is wrong. We study two state-of-the-art methods that have these three components, namely Hiera and ViTDet, and find that both do indeed suffer from this bug. To fix it, we introduce a simple absolute window position embedding strategy, which solves the bug outright in Hiera and allows us to increase both speed and performance of the model in ViTDet. We finally combine the two to obtain HieraDet, which achieves 61.7 box mAP on COCO, making it state-of-the-art for models that only use ImageNet-1k pretraining. This all stems from what is essentially a 3 line bug fix, which we name ‘absolute win’.
arxiv情報
著者 | Daniel Bolya,Chaitanya Ryali,Judy Hoffman,Christoph Feichtenhofer |
発行日 | 2023-11-09 18:59:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google