On Using Quasirandom Sequences in Machine Learning for Model Weight Initialization

要約

ニューラル ネットワークのトレーニングの有効性は、機械学習アプリケーションの計算コスト、リソース割り当て、モデル開発のタイムラインに直接影響します。
オプティマイザーがモデルを適切にトレーニングできるかどうか (トレーニングされたモデルのパフォーマンスの点で) は、モデルの初期の重みによって決まります。
モデルの重み初期化スキームは、ランダム性のソースとして擬似乱数発生器 (PRNG) を使用します。
私たちは、イニシャライザの乱数源として低矛盾準乱数生成器 (QRNG)、つまり Sobol シーケンスを PRNG に置き換えることでモデルのパフォーマンスが向上するかどうかを調査します。
SGD および Adam オプティマイザーを使用して、MNIST、CIFAR-10、および IMDB データセットでトレーニングされた多層パーセプトロン (MLP)、畳み込みニューラル ネットワーク (CNN)、長短期記憶 (LSTM)、およびトランスフォーマー アーキテクチャを検証します。
私たちの分析では、Glorot、He、Lecun (Uniform と Normal の両方) の 10 個の初期化スキームを使用します。
直交、ランダム法線、切り捨て法線、およびランダム均一。
PRNG ベースおよび QRNG ベースのイニシャライザを使用して重みが設定されたモデルは、データセット、アーキテクチャ、オプティマイザ、および初期化スキームの組み合わせごとにペアごとに比較されます。
私たちの調査結果は、実施された 120 件の実験のうち 60% において、QRNG ベースのニューラル ネットワーク イニシャライザーが PRNG ベースのイニシャライザーよりも高い精度に達するか、同じ精度をより早く達成することを示しています。
したがって、PRNG ベースのイニシャライザの代わりに QRNG ベースのイニシャライザを使用すると、モデルのトレーニングが高速化され、改善されます。

要約(オリジナル)

The effectiveness of training neural networks directly impacts computational costs, resource allocation, and model development timelines in machine learning applications. An optimizer’s ability to train the model adequately (in terms of trained model performance) depends on the model’s initial weights. Model weight initialization schemes use pseudorandom number generators (PRNGs) as a source of randomness. We investigate whether substituting PRNGs for low-discrepancy quasirandom number generators (QRNGs) — namely Sobol’ sequences — as a source of randomness for initializers can improve model performance. We examine Multi-Layer Perceptrons (MLP), Convolutional Neural Networks (CNN), Long Short-Term Memory (LSTM), and Transformer architectures trained on MNIST, CIFAR-10, and IMDB datasets using SGD and Adam optimizers. Our analysis uses ten initialization schemes: Glorot, He, Lecun (both Uniform and Normal); Orthogonal, Random Normal, Truncated Normal, and Random Uniform. Models with weights set using PRNG- and QRNG-based initializers are compared pairwise for each combination of dataset, architecture, optimizer, and initialization scheme. Our findings indicate that QRNG-based neural network initializers either reach a higher accuracy or achieve the same accuracy more quickly than PRNG-based initializers in 60% of the 120 experiments conducted. Thus, using QRNG-based initializers instead of PRNG-based initializers can speed up and improve model training.

arxiv情報

著者 Andriy Miranskyy,Adam Sorrenti,Viral Thakar
発行日 2024-08-05 17:33:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク