Self-Supervised Learning based on Heat Equation

要約

この論文では、熱方程式を高次元の特徴空間に拡張することに基づく、自己教師あり学習の新しい視点を提示します。
特に、定常状態による時間依存性を取り除き、残りの 2D ラプラシアンを x-y 等方性から線形相関に拡張します。
さらに、x 軸と y 軸を 2 つの 1 次線形微分方程式として分割することで簡略化します。
このような単純化により、水平方向と垂直方向に沿った空間的不変性が明示的にモデル化され、画像ブロック全体の予測がサポートされます。
これは、QB-Heat という非常に単純なマスク イメージ モデリング (MIM) メソッドを導入します。
QB-Heat は、マスクされていない 1/4 画像のサイズの 1 つのブロックを残し、他の 3 つのマスクされた 4 分の 1 を直線的に外挿します。
これは付加機能なしで MIM を CNN にもたらし、微調整なしで画像分類とオブジェクト検出の両方に適した軽量ネットワークの事前トレーニングにも適しています。
5.8M パラメータと 285M FLOP で Mobile-Former を事前トレーニングした MoCo-v2 と比較すると、QB-Heat は ImageNet での線形プローブでは同等ですが、線形分類子の前に変換ブロックを追加する非線形プローブでは明らかに優れています (
65.6% 対 52.9%)。
フリーズしたバックボーンを使用してオブジェクト検出に移行する場合、QB-Heat は、MoCo-v2 および ImageNet での教師付き事前トレーニングよりもそれぞれ 7.9 AP および 4.5 AP 優れています。
この作業は、さまざまな形状とテクスチャの視覚的表現内の不変性に関する洞察に満ちた仮説を提供します。水平方向と垂直方向の導関数間の線形関係です。
コードは公開されます。

要約(オリジナル)

This paper presents a new perspective of self-supervised learning based on extending heat equation into high dimensional feature space. In particular, we remove time dependence by steady-state condition, and extend the remaining 2D Laplacian from x–y isotropic to linear correlated. Furthermore, we simplify it by splitting x and y axes as two first-order linear differential equations. Such simplification explicitly models the spatial invariance along horizontal and vertical directions separately, supporting prediction across image blocks. This introduces a very simple masked image modeling (MIM) method, named QB-Heat. QB-Heat leaves a single block with size of quarter image unmasked and extrapolates other three masked quarters linearly. It brings MIM to CNNs without bells and whistles, and even works well for pre-training light-weight networks that are suitable for both image classification and object detection without fine-tuning. Compared with MoCo-v2 on pre-training a Mobile-Former with 5.8M parameters and 285M FLOPs, QB-Heat is on par in linear probing on ImageNet, but clearly outperforms in non-linear probing that adds a transformer block before linear classifier (65.6% vs. 52.9%). When transferring to object detection with frozen backbone, QB-Heat outperforms MoCo-v2 and supervised pre-training on ImageNet by 7.9 and 4.5 AP respectively. This work provides an insightful hypothesis on the invariance within visual representation over different shapes and textures: the linear relationship between horizontal and vertical derivatives. The code will be publicly released.

arxiv情報

著者 Yinpeng Chen,Xiyang Dai,Dongdong Chen,Mengchen Liu,Lu Yuan,Zicheng Liu,Youzuo Lin
発行日 2022-11-23 18:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク