Scaling Down Deep Learning with MNIST-1D

要約

深層学習モデルは商業的および政治的な関連性を帯びてきましたが、そのトレーニングと運用の重要な側面は依然としてよく理解されていません。
これにより、深層学習プロジェクトの科学への関心が高まりましたが、その多くは多量の時間、資金、電力を必要とします。
しかし、この研究のうち実際に大規模に実施する必要があるのはどれくらいでしょうか?
このペーパーでは、MNIST-1D を紹介します。これは、古典的な深層学習ベンチマークに代わる、最小限で手続き的に生成され、低メモリ、低コンピューティングの代替手段です。
MNIST-1D の次元はわずか 40 で、デフォルトのトレーニング セット サイズはわずか 4000 ですが、MNIST-1D を使用して、さまざまな深層アーキテクチャの帰納的バイアスを研究したり、宝くじを見つけたり、深層二重降下を観察したり、活性化関数を取得したり、デモンストレーションしたりすることができます。
自己教師あり学習におけるギロチン正則化。
これらの実験はすべて GPU 上で、または多くの場合 CPU 上でも数分以内に実行できるため、低予算での迅速なプロトタイピング、教育用ユースケース、最先端の研究が可能になります。

要約(オリジナル)

Although deep learning models have taken on commercial and political relevance, key aspects of their training and operation remain poorly understood. This has sparked interest in science of deep learning projects, many of which require large amounts of time, money, and electricity. But how much of this research really needs to occur at scale? In this paper, we introduce MNIST-1D: a minimalist, procedurally generated, low-memory, and low-compute alternative to classic deep learning benchmarks. Although the dimensionality of MNIST-1D is only 40 and its default training set size only 4000, MNIST-1D can be used to study inductive biases of different deep architectures, find lottery tickets, observe deep double descent, metalearn an activation function, and demonstrate guillotine regularization in self-supervised learning. All these experiments can be conducted on a GPU or often even on a CPU within minutes, allowing for fast prototyping, educational use cases, and cutting-edge research on a low budget.

arxiv情報

著者 Sam Greydanus,Dmitry Kobak
発行日 2024-05-21 17:48:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE, stat.ML パーマリンク