Parameter-Inverted Image Pyramid Networks

要約

画像ピラミッドは、画像を正確に理解するためにマルチスケール特徴を取得するために、現代のコンピューター ビジョン タスクで一般的に使用されています。
ただし、画像ピラミッドは同じ大規模モデルを使用して複数の解像度の画像を処理するため、多大な計算コストが必要になります。
この問題を克服するために、パラメータ反転イメージ ピラミッド ネットワーク (PIIP) として知られる新しいネットワーク アーキテクチャを提案します。
私たちの中心的なアイデアは、異なるパラメーター サイズを持つモデルを使用して、画像ピラミッドの異なる解像度レベルを処理し、それによって計算効率とパフォーマンスのバランスをとることです。
具体的には、PIIP への入力はマルチスケール画像のセットであり、高解像度の画像は小規模なネットワークで処理されます。
さらに、異なる解像度の特徴が相互に補完し、異なる空間スケールからの情報を効果的に統合できるようにする特徴相互作用メカニズムを提案します。
広範な実験により、PIIP は、計算コストを削減しながら、従来の画像ピラミッド法や単一ブランチ ネットワークと比較して、物体検出、セグメンテーション、画像分類などのタスクにおいて優れたパフォーマンスを達成できることが実証されています。
特に、大規模ビジョン基盤モデル InternViT-6B に私たちの手法を適用すると、元の計算のわずか 40% ~ 60% で検出とセグメンテーションのパフォーマンスが 1% ~ 2% 向上します。
これらの結果は、PIIP アプローチの有効性を検証し、将来のビジョン コンピューティング タスクに新しい技術的方向性を提供します。
コードとモデルは https://github.com/OpenGVLab/PIIP で入手できます。

要約(オリジナル)

Image pyramids are commonly used in modern computer vision tasks to obtain multi-scale features for precise understanding of images. However, image pyramids process multiple resolutions of images using the same large-scale model, which requires significant computational cost. To overcome this issue, we propose a novel network architecture known as the Parameter-Inverted Image Pyramid Networks (PIIP). Our core idea is to use models with different parameter sizes to process different resolution levels of the image pyramid, thereby balancing computational efficiency and performance. Specifically, the input to PIIP is a set of multi-scale images, where higher resolution images are processed by smaller networks. We further propose a feature interaction mechanism to allow features of different resolutions to complement each other and effectively integrate information from different spatial scales. Extensive experiments demonstrate that the PIIP achieves superior performance in tasks such as object detection, segmentation, and image classification, compared to traditional image pyramid methods and single-branch networks, while reducing computational cost. Notably, when applying our method on a large-scale vision foundation model InternViT-6B, we improve its performance by 1%-2% on detection and segmentation with only 40%-60% of the original computation. These results validate the effectiveness of the PIIP approach and provide a new technical direction for future vision computing tasks. Our code and models are available at https://github.com/OpenGVLab/PIIP.

arxiv情報

著者 Xizhou Zhu,Xue Yang,Zhaokai Wang,Hao Li,Wenhan Dou,Junqi Ge,Lewei Lu,Yu Qiao,Jifeng Dai
発行日 2024-06-06 17:59:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク