Efficiency for Free: Ideal Data Are Transportable Representations

要約

データは、現代の機械学習における独創的な機会であり課題ですが、現在、表現学習のスケーラビリティを制約し、モデルの進化のペースを妨げています。
既存のパラダイムは、自己教師あり学習とデータセット抽出の観点から独立して大規模なデータセットにわたる学習効率の問題に取り組んでいますが、中間の観点から表現学習を加速するという未開発の可能性を無視しています。
この作業では、最適化と一般化の両方の観点から理想的なデータ プロパティの定義について詳しく説明します。
私たちは、モデルによって生成された表現は、さまざまなタスクやアーキテクチャでトレーニングされているにもかかわらず、共有線形空間に収束し、モデル間の効果的な線形伝達を促進すると提案します。
さらに、これらの表現が理想的なデータの形成に役立つ特性を示すことを示します。
そこに含まれる理論的/経験的洞察に触発されて、私たちは表現学習アクセラレーター (ReLA) を提案するようになりました。これは、タスクやアーキテクチャに依存せず、公開されている無料のモデルを活用して、動的なデータ サブセットを形成し、それによって (自己) 教師あり学習を加速します。
たとえば、動的なデータ生成の事前モデルとして CLIP ViT B/16 を採用することで、ReLA 支援 BYOL は、ImageNet-1K の 50% を使用して ResNet-50 をゼロからトレーニングでき、完全なデータセットでのトレーニングを上回るパフォーマンスを実現します。
さらに、CIFAR-10 で事前トレーニングされた ResNet-18 を採用すると、ImageNet-1K の 10% での ResNet-50 トレーニングが強化され、精度が 7.7% 向上します。

要約(オリジナル)

Data, the seminal opportunity and challenge in modern machine learning, currently constrains the scalability of representation learning and impedes the pace of model evolution. Existing paradigms tackle the issue of learning efficiency over massive datasets from the perspective of self-supervised learning and dataset distillation independently, while neglecting the untapped potential of accelerating representation learning from an intermediate standpoint. In this work, we delve into defining the ideal data properties from both optimization and generalization perspectives. We propose that model-generated representations, despite being trained on diverse tasks and architectures, converge to a shared linear space, facilitating effective linear transport between models. Furthermore, we demonstrate that these representations exhibit properties conducive to the formation of ideal data. The theoretical/empirical insights therein inspire us to propose a Representation Learning Accelerator (ReLA), which leverages a task- and architecture-agnostic, yet publicly available, free model to form a dynamic data subset and thus accelerate (self-)supervised learning. For instance, employing a CLIP ViT B/16 as a prior model for dynamic data generation, ReLA-aided BYOL can train a ResNet-50 from scratch with 50% of ImageNet-1K, yielding performance surpassing that of training on the full dataset. Additionally, employing a ResNet-18 pre-trained on CIFAR-10 can enhance ResNet-50 training on 10% of ImageNet-1K, resulting in a 7.7% increase in accuracy.

arxiv情報

著者 Peng Sun,Yi Jiang,Tao Lin
発行日 2024-05-23 15:06:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク