要約
既存の研究では、画像分類を高速化するためにアーキテクチャの冗長性を減らすことにしばしば焦点が当てられるが、入力画像の空間的な冗長性は無視されている。本論文では、この問題を解決するために、効率的な画像分類パイプラインを提案する。我々はまず、AnchorNetと呼ばれる軽量なパッチ提案ネットワークにより、入力画像上のタスクを意識した領域をピンポイントで特定する。次に、空間的な冗長性がはるかに小さい、これらの局所的な意味的パッチを一般的な分類ネットワークに送り込む。一般的なディープCNNの設計とは異なり、我々は中間的な畳み込みのパッドなしでAnchorNetのReceptive Fieldを慎重に設計することを目的としている。これにより、高レベルの空間位置から特定の入力画像パッチへの正確なマッピングが保証される。各パッチの寄与は解釈可能である。さらに、AnchorNetはあらゆる下流アーキテクチャと互換性があります。ImageNetを用いた実験の結果、本手法は少ない推論コストでSOTA動的推論手法より優れていることが示された。我々のコードは https://github.com/winycg/AnchorNet で公開されています。
要約(オリジナル)
Existing works often focus on reducing the architecture redundancy for accelerating image classification but ignore the spatial redundancy of the input image. This paper proposes an efficient image classification pipeline to solve this problem. We first pinpoint task-aware regions over the input image by a lightweight patch proposal network called AnchorNet. We then feed these localized semantic patches with much smaller spatial redundancy into a general classification network. Unlike the popular design of deep CNN, we aim to carefully design the Receptive Field of AnchorNet without intermediate convolutional paddings. This ensures the exact mapping from a high-level spatial location to the specific input image patch. The contribution of each patch is interpretable. Moreover, AnchorNet is compatible with any downstream architecture. Experimental results on ImageNet show that our method outperforms SOTA dynamic inference methods with fewer inference costs. Our code is available at https://github.com/winycg/AnchorNet.
arxiv情報
著者 | Chuanguang Yang,Zhulin An,Yongjun Xu |
発行日 | 2022-06-07 15:01:54+00:00 |
arxivサイト | arxiv_id(pdf) |