要約
最近、ビジョン トランスフォーマー (ViT) によってコンピューター ビジョンのタスクが大幅に進歩しましたが、可変入力解像度への適応という現実世界の重要な問題が見落とされていました。
通常、画像はトレーニングや推論中の効率を高めるために、224×224 などの固定解像度にサイズ変更されます。
ただし、均一な入力サイズは、画像の解像度が自然に変化する現実のシナリオと矛盾します。
モデルのプリセット解像度を変更すると、パフォーマンスが大幅に低下する可能性があります。
この研究では、パッチの埋め込みを最適化することで、解像度の変動に対するモデルの適応性を強化することを提案します。
マルチスケール パッチ エンベディング (MSPE) と呼ばれる提案された方法は、標準的なパッチ エンベディングを複数の可変サイズのパッチ カーネルで置き換え、さまざまな解像度に最適なパラメータを選択するため、元の画像のサイズを変更する必要がなくなります。
私たちの手法は、高コストのトレーニングや他の部分の変更を必要としないため、ほとんどの ViT モデルに簡単に適用できます。
画像分類、セグメンテーション、および検出タスクの実験では、MSPE の有効性が実証され、低解像度入力では優れたパフォーマンスが得られ、高解像度入力では既存の方法と同等のパフォーマンスが得られます。
要約(オリジナル)
Although Vision Transformers (ViTs) have recently advanced computer vision tasks significantly, an important real-world problem was overlooked: adapting to variable input resolutions. Typically, images are resized to a fixed resolution, such as 224×224, for efficiency during training and inference. However, uniform input size conflicts with real-world scenarios where images naturally vary in resolution. Modifying the preset resolution of a model may severely degrade the performance. In this work, we propose to enhance the model adaptability to resolution variation by optimizing the patch embedding. The proposed method, called Multi-Scale Patch Embedding (MSPE), substitutes the standard patch embedding with multiple variable-sized patch kernels and selects the best parameters for different resolutions, eliminating the need to resize the original image. Our method does not require high-cost training or modifications to other parts, making it easy to apply to most ViT models. Experiments in image classification, segmentation, and detection tasks demonstrate the effectiveness of MSPE, yielding superior performance on low-resolution inputs and performing comparably on high-resolution inputs with existing methods.
arxiv情報
著者 | Wenzhuo Liu,Fei Zhu,Shijie Ma,Cheng-Lin Liu |
発行日 | 2024-05-28 14:50:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google