要約
ビジョン変圧器は、自己関節を通じて長距離の依存関係と文脈的関係をキャプチャする能力により、コンピュータービジョンタスクの重要な利点を実証しています。
ただし、自然言語処理から主に借用されている既存の位置エンコーディング技術は、画像パッチ間のセマンティックアウェアの位置関係を効果的にキャプチャすることができません。
絶対位置エンコーディングや相対位置エンコードなどの従来のアプローチは、主に1D線形位置関係に焦点を当てており、しばしば遠方でありながら文脈に関連するパッチ間の意味的な類似性を無視します。
これらの制限は、モデルの一般化、翻訳の等語性、および画像の繰り返しまたは構造化されたパターンを効果的に処理する能力を妨げます。
この論文では、固定線形位置関係または空間座標の代わりにローカルコンテンツを活用することにより位置表現を動的に適応させるセマンティック認識を備えた新しい位置エンコード方法である2次元セマンティックアウェア位置エンコード($ \ Text {sape}^2 $)を提案します。
私たちの方法は、さまざまな画像解像度とスケール全体に一般化するモデルの能力を高め、翻訳の同等性を改善し、視覚的に類似しているが空間的に遠いパッチのためのより良い集計機能を改善します。
$ \ text {sape}^2 $をビジョントランスに統合することにより、エンコードと知覚的類似性の間のギャップを埋め、それによりコンピュータービジョンタスクのパフォーマンスが向上します。
要約(オリジナル)
Vision transformers have demonstrated significant advantages in computer vision tasks due to their ability to capture long-range dependencies and contextual relationships through self-attention. However, existing position encoding techniques, which are largely borrowed from natural language processing, fail to effectively capture semantic-aware positional relationships between image patches. Traditional approaches like absolute position encoding and relative position encoding primarily focus on 1D linear position relationship, often neglecting the semantic similarity between distant yet contextually related patches. These limitations hinder model generalization, translation equivariance, and the ability to effectively handle repetitive or structured patterns in images. In this paper, we propose 2-Dimensional Semantic-Aware Position Encoding ($\text{SaPE}^2$), a novel position encoding method with semantic awareness that dynamically adapts position representations by leveraging local content instead of fixed linear position relationship or spatial coordinates. Our method enhances the model’s ability to generalize across varying image resolutions and scales, improves translation equivariance, and better aggregates features for visually similar but spatially distant patches. By integrating $\text{SaPE}^2$ into vision transformers, we bridge the gap between position encoding and perceptual similarity, thereby improving performance on computer vision tasks.
arxiv情報
著者 | Xi Chen,Shiyang Zhou,Muqi Huang,Jiaxu Feng,Yun Xiong,Kun Zhou,Biao Yang,Yuhui Zhang,Huishuai Bao,Sijia Peng,Chuan Li,Feng Shi |
発行日 | 2025-05-14 15:17:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google