要約
この論文では、手作りのデータ増強に頼ることなく、高度にセマンティックな画像表現を学習するためのアプローチを示します。
画像からの自己教師あり学習のための非生成的アプローチである画像ベースのジョイント埋め込み予測アーキテクチャ (I-JEPA) を紹介します。
I-JEPA の背後にある考え方は単純です。単一のコンテキスト ブロックから、同じ画像内のさまざまなターゲット ブロックの表現を予測します。
I-JEPA をセマンティック表現の生成に導くための中心的な設計上の選択は、マスキング戦略です。
具体的には、(a) 画像内のいくつかのターゲット ブロックを予測する、(b) 十分に大きなスケール (画像の 15% ~ 20% を占める) でターゲット ブロックをサンプリングする、および (c) 十分に有益な (空間的に分散された) ブロックを使用することが重要です。
) コンテキスト ブロック。
経験的に、Vision Transformers と組み合わせると、I-JEPA は非常にスケーラブルであることがわかります。
たとえば、38 時間以内に 32 個の A100 GPU を使用して ImageNet で ViT-Huge/16 をトレーニングし、線形分類からオブジェクトのカウント、深さの予測まで、さまざまなレベルの抽象化を必要とする幅広いタスクで強力なダウンストリーム パフォーマンスを実現しました。
要約(オリジナル)
This paper demonstrates an approach for learning highly semantic image representations without relying on hand-crafted data-augmentations. We introduce the Image-based Joint-Embedding Predictive Architecture (I-JEPA), a non-generative approach for self-supervised learning from images. The idea behind I-JEPA is simple: from a single context block, predict the representations of various target blocks in the same image. A core design choice to guide I-JEPA towards producing semantic representations is the masking strategy; specifically, it is crucial to (a) predict several target blocks in the image, (b) sample target blocks with sufficiently large scale (occupying 15%-20% of the image), and (c) use a sufficiently informative (spatially distributed) context block. Empirically, when combined with Vision Transformers, we find I-JEPA to be highly scalable. For instance, we train a ViT-Huge/16 on ImageNet using 32 A100 GPUs in under 38 hours to achieve strong downstream performance across a wide range of tasks requiring various levels of abstraction, from linear classification to object counting and depth prediction.
arxiv情報
著者 | Mahmoud Assran,Quentin Duval,Ishan Misra,Piotr Bojanowski,Pascal Vincent,Michael Rabbat,Yann LeCun,Nicolas Ballas |
発行日 | 2023-01-19 18:59:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google