Enhancing JEPAs with Spatial Conditioning: Robust and Efficient Representation Learning

要約

Image-based Joint-Embedding Predictive Architecture (IJEPA) は、Masked Image Modeling フレームワークを使用した表現学習のための Masked Autoencoder (MAE) に代わる魅力的な代替手段を提供します。
IJEPA は、入力空間ではなく潜在空間で予測することにより、有用なセマンティック情報を取得する表現を推進します。
ただし、IJEPA は、表現の崩壊を避けるために、慎重に設計されたコンテキストおよびターゲット ウィンドウに依存しています。
IJEPA のエンコーダ モジュールには、コンテキストとターゲットの両方について十分な情報が与えられていないため、マスクされた予測タスクの実現可能性に基づいて、予測特徴やターゲット特徴のタイプを適応的に調整することができません。
自然画像では情報に強い空間的偏りがあり、空間的に局所的な領域は遠くの領域に比べて相互の予測性が高いという直観に基づいています。
IJEPA のターゲット エンコーダ モジュールとコンテキスト エンコーダ モジュールを、それぞれコンテキスト ウィンドウとターゲット ウィンドウの位置で条件付けします。
当社の「条件付き」エンコーダーは、いくつかの画像分類ベンチマーク データセットでパフォーマンスの向上を示し、事前トレーニング中のコンテキスト ウィンドウ サイズとサンプル効率に対する堅牢性が向上しました。

要約(オリジナル)

Image-based Joint-Embedding Predictive Architecture (IJEPA) offers an attractive alternative to Masked Autoencoder (MAE) for representation learning using the Masked Image Modeling framework. IJEPA drives representations to capture useful semantic information by predicting in latent rather than input space. However, IJEPA relies on carefully designed context and target windows to avoid representational collapse. The encoder modules in IJEPA cannot adaptively modulate the type of predicted and/or target features based on the feasibility of the masked prediction task as they are not given sufficient information of both context and targets. Based on the intuition that in natural images, information has a strong spatial bias with spatially local regions being highly predictive of one another compared to distant ones. We condition the target encoder and context encoder modules in IJEPA with positions of context and target windows respectively. Our ‘conditional’ encoders show performance gains on several image classification benchmark datasets, improved robustness to context window size and sample-efficiency during pretraining.

arxiv情報

著者 Etai Littwin,Vimal Thilak,Anand Gopalakrishnan
発行日 2024-10-14 17:46:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク