MULLER: Multilayer Laplacian Resizer for Vision

要約

【タイトル】ビジョン向けマルチレイヤーラプラシアンリサイザー:MULLER

【要約】
– 現代のコンピュータビジョンにおいて、画像のリサイズ操作は基本的な前処理モジュールである。
– しかしながら、最近の深層学習の革新において、簡単に利用可能な一般的に使用されるリサイズ手法(最近傍、バイリニア、バイキュービック)以外の代替リサイズ手法の潜在的な可能性に関して研究者たちは見落としていた。
– 本論文の興味は、フロントエンドリサイザーが深層学習モデルのパフォーマンスに影響を与えるかどうかである。
– 本研究では、学習可能なパラメータがわずかしかない極めて軽量なマルチレイヤーラプラシアンリサイザー「MULLER」を提案する。
– MULLERは、特定の周波数サブバンドで詳細を増強することを学ぶため、バンドパス性質を持つ。
– MULLERは、さまざまなトレーニングパイプラインに容易にプラグインでき、ほとんど追加コストなしにアンダーラインビジョンタスクのパフォーマンスを効果的に向上させることができることを示す。
– 具体的には、最先端のビジョンTransformerであるMaxViTをベースラインとし、MULLERでトレーニングする場合、ImageNet-1kで類似したtop-1精度を達成しつつ、36%の推論コスト削減が可能であることを示す。
– 注意すべき点としては、MULLERのパフォーマンスは、モデルサイズやトレーニングデータサイズ(ImageNet-21kやJFTなど)に応じてスケーリングされ、画像分類、物体検出とセグメンテーション、画像品質評価などの複数のビジョンタスクに広く適用できることである。

要約(オリジナル)

Image resizing operation is a fundamental preprocessing module in modern computer vision. Throughout the deep learning revolution, researchers have overlooked the potential of alternative resizing methods beyond the commonly used resizers that are readily available, such as nearest-neighbors, bilinear, and bicubic. The key question of our interest is whether the front-end resizer affects the performance of deep vision models? In this paper, we present an extremely lightweight multilayer Laplacian resizer with only a handful of trainable parameters, dubbed MULLER resizer. MULLER has a bandpass nature in that it learns to boost details in certain frequency subbands that benefit the downstream recognition models. We show that MULLER can be easily plugged into various training pipelines, and it effectively boosts the performance of the underlying vision task with little to no extra cost. Specifically, we select a state-of-the-art vision Transformer, MaxViT, as the baseline, and show that, if trained with MULLER, MaxViT gains up to 0.6% top-1 accuracy, and meanwhile enjoys 36% inference cost saving to achieve similar top-1 accuracy on ImageNet-1k, as compared to the standard training scheme. Notably, MULLER’s performance also scales with model size and training data size such as ImageNet-21k and JFT, and it is widely applicable to multiple vision tasks, including image classification, object detection and segmentation, as well as image quality assessment.

arxiv情報

著者 Zhengzhong Tu,Peyman Milanfar,Hossein Talebi
発行日 2023-04-06 04:39:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク