要約
この研究では、Simulated Overparametrization (SOP) と呼ばれる新しいパラダイムを導入します。
SOP は、コンパクトなモデルの計算効率と、過剰パラメータ化されたモデルの高度な学習能力を組み合わせます。
SOP は、モデルのトレーニングと推論に対する独自のアプローチを提案しています。このアプローチでは、非常に多くのパラメーターを持つモデルが、これらのパラメーターのより小さく効率的なサブセットが推論中の実際の計算に使用されるような方法でトレーニングされます。
このフレームワークに基づいて、Transformer モデルを含む主要なアーキテクチャとシームレスに統合する、「マジョリティ カーネル」と呼ばれる新しいアーキテクチャに依存しないアルゴリズムを提案します。
マジョリティ カーネルにより、オーバーパラメータ化されたモデルのシミュレーション トレーニングが可能になり、アーキテクチャとタスク全体でパフォーマンスが向上します。
さらに、私たちのアプローチでは、トレーニング時に発生するコスト (実時間) に最小限のオーバーヘッドが追加されます。
提案されたアプローチは、さまざまなデータセットやモデルに対して優れたパフォーマンスを示し、サブモジュラー最適化に基づく組み合わせ最適化手法などの強力なベースラインをも上回るパフォーマンスを示します。
要約(オリジナル)
In this work, we introduce a novel paradigm called Simulated Overparametrization (SOP). SOP merges the computational efficiency of compact models with the advanced learning proficiencies of overparameterized models. SOP proposes a unique approach to model training and inference, where a model with a significantly larger number of parameters is trained in such a way that a smaller, efficient subset of these parameters is used for the actual computation during inference. Building upon this framework, we present a novel, architecture agnostic algorithm called ‘majority kernels’, which seamlessly integrates with predominant architectures, including Transformer models. Majority kernels enables the simulated training of overparameterized models, resulting in performance gains across architectures and tasks. Furthermore, our approach adds minimal overhead to the cost incurred (wall clock time) at training time. The proposed approach shows strong performance on a wide variety of datasets and models, even outperforming strong baselines such as combinatorial optimization methods based on submodular optimization.
arxiv情報
著者 | Hanna Mazzawi,Pranjal Awasthi,Xavi Gonzalvo,Srikumar Ramalingam |
発行日 | 2024-02-07 17:07:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google