要約
この論文は、すべての画像が FINOLA と呼ばれる 1 次ノルム + 線形自己回帰プロセスとして理解できることを明らかにします。ノルム + 線形は、線形モデルの前に正規化を使用することを示します。
サイズ 256$\times$256 の画像は、最大 16$\times$16 の特徴マップまでの自己回帰を使用し、その後にアップサンプリングと畳み込みを使用して圧縮ベクトルから再構築できることを示します。
この発見は、潜在特徴空間を支配する基礎となる偏微分方程式 (PDE) に光を当てます。
さらに、単純なマスク予測手法による自己教師あり学習への FINOLA の応用を調査します。
単一のマスクされていない象限ブロックをエンコードすることにより、周囲のマスクされた領域を自己回帰的に予測できます。
驚くべきことに、この事前トレーニングされた表現は、微調整を必要とせずに、軽量ネットワークであっても画像分類や物体検出タスクに効果的であることが証明されています。
コードは公開されます。
要約(オリジナル)
This paper reveals that every image can be understood as a first-order norm+linear autoregressive process, referred to as FINOLA, where norm+linear denotes the use of normalization before the linear model. We demonstrate that images of size 256$\times$256 can be reconstructed from a compressed vector using autoregression up to a 16$\times$16 feature map, followed by upsampling and convolution. This discovery sheds light on the underlying partial differential equations (PDEs) governing the latent feature space. Additionally, we investigate the application of FINOLA for self-supervised learning through a simple masked prediction technique. By encoding a single unmasked quadrant block, we can autoregressively predict the surrounding masked region. Remarkably, this pre-trained representation proves effective for image classification and object detection tasks, even in lightweight networks, without requiring fine-tuning. The code will be made publicly available.
arxiv情報
著者 | Yinpeng Chen,Xiyang Dai,Dongdong Chen,Mengchen Liu,Lu Yuan,Zicheng Liu,Youzuo Lin |
発行日 | 2023-05-25 17:59:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google