Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture

要約

タイトル:画像からのセルフスパーバイズドラーニングにおける共有埋め込み予測アーキテクチャを用いた学習

要約:
– 手作りのデータ強化に頼らなくて、高度に意味のある画像表現を学習する方法を示すことができる。
– 画像ベースの共有埋め込み予測アーキテクチャ(I-JEPA)を導入する。I-JEPAは、画像からのセルフスパーバイズドラーニングを行う非生成的アプローチである。
– I-JEPAのアイデアは簡単で、単一のコンテキストブロックから同じ画像内の複数のターゲットブロックの表現を予測する。
– semanticなターゲットブロックを十分に大きなスケールでサンプリングし、情報量が十分な空間に分布するコンテキストブロックを使用することが重要である。
– Vision Transformersと組み合わせることで、I-JEPAが高度にスケーラブルであることを実証する。16のA100 GPUを使って、72時間以内にImageNetでViT-Huge/14をトレーニングし、線形分類からオブジェクトカウントや深度予測など、幅広いタスクで強力なダウンストリームパフォーマンスを実現できる。

要約(オリジナル)

This paper demonstrates an approach for learning highly semantic image representations without relying on hand-crafted data-augmentations. We introduce the Image-based Joint-Embedding Predictive Architecture (I-JEPA), a non-generative approach for self-supervised learning from images. The idea behind I-JEPA is simple: from a single context block, predict the representations of various target blocks in the same image. A core design choice to guide I-JEPA towards producing semantic representations is the masking strategy; specifically, it is crucial to (a) sample target blocks with sufficiently large scale (semantic), and to (b) use a sufficiently informative (spatially distributed) context block. Empirically, when combined with Vision Transformers, we find I-JEPA to be highly scalable. For instance, we train a ViT-Huge/14 on ImageNet using 16 A100 GPUs in under 72 hours to achieve strong downstream performance across a wide range of tasks, from linear classification to object counting and depth prediction.

arxiv情報

著者 Mahmoud Assran,Quentin Duval,Ishan Misra,Piotr Bojanowski,Pascal Vincent,Michael Rabbat,Yann LeCun,Nicolas Ballas
発行日 2023-04-13 17:59:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV パーマリンク