Beyond Grids: Exploring Elastic Input Sampling for Vision Transformers

要約

ビジョン トランスフォーマーはさまざまなコンピューター ビジョン タスクで優れていますが、そのほとんどはパッチの固定サイズ グリッドを使用した厳密な入力サンプリングに依存しています。
これにより、パッチがさまざまなスケールや位置を持つ、アクティブな視覚的探索など、現実世界の問題への適用性が制限されます。
私たちの論文では、ビジョントランスフォーマーの入力弾性の概念を形式化し、この弾性を測定するための評価プロトコルを導入することで、この制限に対処しています。
さらに、変圧器のアーキテクチャとトレーニング方式を変更して、その弾力性を高めることを提案します。
私たちは広範な実験を通じて、そのようなアーキテクチャに関連する機会と課題に焦点を当てます。

要約(オリジナル)

Vision transformers have excelled in various computer vision tasks but mostly rely on rigid input sampling using a fixed-size grid of patches. It limits their applicability in real-world problems, such as active visual exploration, where patches have various scales and positions. Our paper addresses this limitation by formalizing the concept of input elasticity for vision transformers and introducing an evaluation protocol for measuring this elasticity. Moreover, we propose modifications to the transformer architecture and training regime, which increase its elasticity. Through extensive experimentation, we spotlight opportunities and challenges associated with such architecture.

arxiv情報

著者 Adam Pardyl,Grzegorz Kurzejamski,Jan Olszewski,Tomasz Trzciński,Bartosz Zieliński
発行日 2024-11-26 17:28:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク