要約
画像認識モデルの開発における標準的なプラクティスは、特定の画像解像度でモデルを訓練し、それを展開することである。しかし、実世界の推論では、モデルはしばしば、解像度が学習セットと異なる画像に遭遇したり、天候の変化、ノイズの種類、圧縮アーチファクトなどの自然変動を受けたりする。従来の解決策では、異なる解像度や入力のバリエーションに対して複数のモデルを学習させるが、これらの方法は計算コストが高く、実際にはスケールしない。そこで我々は、この問題に対処する新しいニューラルネットワークモデル、並列構造化全成分フーリエニューラル演算子(PAC-FNO)を提案する。従来のフィードフォワード型ニューラルネットワークとは異なり、PAC-FNOは周波数領域で動作するため、1つのモデルで様々な解像度の画像を扱うことができる。また、オリジナルのダウンストリームモデルに最小限の変更を加えるだけで、PAC-FNOを学習させる2段階のアルゴリズムを提案する。さらに、提案するPAC-FNOは、既存の画像認識モデルと連携可能である。7つの画像認識ベンチマークを用いて手法を広範囲に評価した結果、提案するPAC-FNOは、様々な解像度を持つ画像において、既存のベースラインモデルの性能を最大77.1%向上させ、推論時の画像の様々な種類の自然な変化を改善することを示す。
要約(オリジナル)
A standard practice in developing image recognition models is to train a model on a specific image resolution and then deploy it. However, in real-world inference, models often encounter images different from the training sets in resolution and/or subject to natural variations such as weather changes, noise types and compression artifacts. While traditional solutions involve training multiple models for different resolutions or input variations, these methods are computationally expensive and thus do not scale in practice. To this end, we propose a novel neural network model, parallel-structured and all-component Fourier neural operator (PAC-FNO), that addresses the problem. Unlike conventional feed-forward neural networks, PAC-FNO operates in the frequency domain, allowing it to handle images of varying resolutions within a single model. We also propose a two-stage algorithm for training PAC-FNO with a minimal modification to the original, downstream model. Moreover, the proposed PAC-FNO is ready to work with existing image recognition models. Extensively evaluating methods with seven image recognition benchmarks, we show that the proposed PAC-FNO improves the performance of existing baseline models on images with various resolutions by up to 77.1% and various types of natural variations in the images at inference.
arxiv情報
著者 | Jinsung Jeon,Hyundong Jin,Jonghyun Choi,Sanghyun Hong,Dongeun Lee,Kookjin Lee,Noseong Park |
発行日 | 2024-03-05 04:22:32+00:00 |
arxivサイト | arxiv_id(pdf) |