要約
パラメータ管理は、大規模な機械学習 (ML) タスクの分散トレーニングに不可欠です。
パラメータ管理に対する一般的なアプローチは非常に非効率的である可能性があるため、一部の ML タスクは分散が困難です。
選択的レプリケーションや動的パラメーター割り当てなどの高度なパラメーター管理アプローチは効率を向上させることができますが、そのためには通常、各タスクの実装に手動で統合する必要があり、正しく調整するには費用のかかる先行実験が必要です。
この作業では、これら 2 つの問題を回避できるかどうかを調べます。
最初に、既存の ML スタックに自然に統合され、パラメーター マネージャーにパラメーター アクセスに関する重要な情報を提供する新しいインテント シグナリング メカニズムを提案します。
次に、このメカニズムに基づく完全適応型のゼロ調整パラメーター マネージャーである AdaPM について説明します。
従来のシステムとは対照的に、このアプローチは、情報を提供すること (単純、タスクによって行われる) と、情報を効果的に利用すること (困難、AdaPM によって自動的に行われる) を分離します。
私たちの実験的評価では、AdaPM はすぐに使用できる最先端のパラメーター マネージャーと同等またはそれを上回っており、自動パラメーター管理が可能であることを示唆しています。
要約(オリジナル)
Parameter management is essential for distributed training of large machine learning (ML) tasks. Some ML tasks are hard to distribute because common approaches to parameter management can be highly inefficient. Advanced parameter management approaches — such as selective replication or dynamic parameter allocation — can improve efficiency, but to do so, they typically need to be integrated manually into each task’s implementation and they require expensive upfront experimentation to tune correctly. In this work, we explore whether these two problems can be avoided. We first propose a novel intent signaling mechanism that integrates naturally into existing ML stacks and provides the parameter manager with crucial information about parameter accesses. We then describe AdaPM, a fully adaptive, zero-tuning parameter manager based on this mechanism. In contrast to prior systems, this approach separates providing information (simple, done by the task) from exploiting it effectively (hard, done automatically by AdaPM). In our experimental evaluation, AdaPM matched or outperformed state-of-the-art parameter managers out of the box, suggesting that automatic parameter management is possible.
arxiv情報
著者 | Alexander Renz-Wieland,Andreas Kieslinger,Robert Gericke,Rainer Gemulla,Zoi Kaoudi,Volker Markl |
発行日 | 2023-02-22 13:38:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google