要約
実際の機械学習(ML)パイプラインでは、データセットが継続的に成長しています。
モデルは、一般化を改善し、潜在的な分布シフトに適応するために、この新しいトレーニングデータを組み込む必要があります。
モデル再訓練のコストは、モデルの再訓練の頻度とトレーニングの量に比例します。
データ中心のエンドツーエンドの機械学習プラットフォームであるModynを提示します。
ModynのMLパイプライン抽象化により、ユーザーは成長するデータセットでモデルを継続的にトレーニングするためのポリシーを宣言的に説明できます。
Modynパイプラインにより、ユーザーはデータ選択ポリシーを適用し(データポイントの数を減らすため)、ポリシーのトリガー(トレーニングの数を減らすため)を使用することができます。
Modynは、これらの連続MLトレーニングパイプラインを実行および調整します。
このシステムはオープンソースであり、ベンチマークデータセット、モデル、およびツールのエコシステムが付属しています。
複合モデルの概念を導入し、異なるデータ選択とトリガーポリシーとパイプラインの公正な比較を可能にすることにより、MLパイプラインのパフォーマンスを測定する方法について正式に説明します。
さまざまなデータ選択とトリガーポリシーがモデルの精度にどのように影響するかを経験的に分析し、Modynがサンプルレベルのデータ選択により高スループットトレーニングを可能にすることを示します。
要約(オリジナル)
In real-world machine learning (ML) pipelines, datasets are continuously growing. Models must incorporate this new training data to improve generalization and adapt to potential distribution shifts. The cost of model retraining is proportional to how frequently the model is retrained and how much data it is trained on, which makes the naive approach of retraining from scratch each time impractical. We present Modyn, a data-centric end-to-end machine learning platform. Modyn’s ML pipeline abstraction enables users to declaratively describe policies for continuously training a model on a growing dataset. Modyn pipelines allow users to apply data selection policies (to reduce the number of data points) and triggering policies (to reduce the number of trainings). Modyn executes and orchestrates these continuous ML training pipelines. The system is open-source and comes with an ecosystem of benchmark datasets, models, and tooling. We formally discuss how to measure the performance of ML pipelines by introducing the concept of composite models, enabling fair comparison of pipelines with different data selection and triggering policies. We empirically analyze how various data selection and triggering policies impact model accuracy, and also show that Modyn enables high throughput training with sample-level data selection.
arxiv情報
著者 | Maximilian Böther,Ties Robroek,Viktor Gsteiger,Robin Holzinger,Xianzhe Ma,Pınar Tözün,Ana Klimovic |
発行日 | 2025-01-24 17:04:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google