要約
現在の機械学習 (ML) では、他のモデルから派生したモデルが非常に一般的です。
たとえば、転移学習は、微調整を通じて「事前トレーニングされた」モデルからタスク固有のモデルを作成するために使用されます。
これにより、モデルが相互に関連し、構造を共有し、多くの場合パラメーター値も共有するエコシステムが誕生しました。
ただし、これらのモデルの派生モデルを管理するのは困難です。すべての派生モデルを保存するストレージのオーバーヘッドがすぐに煩わしくなり、ユーザーはさらなる分析に役立つ可能性のある中間モデルを削除する必要があります。
さらに、モデル内の望ましくない動作を追跡するのは困難です (例: バグは上流モデルから継承されていますか?)。
このペーパーでは、モデルの派生モデルの保存、テスト、更新、共同作業を容易にする MGit と呼ばれるモデルのバージョン管理および管理システムを提案します。
MGit では、モデル間の来歴とバージョン情報を記録する系統グラフ、モデル パラメーターを効率的に保存するための最適化、および関連するテスト、更新、コラボレーション機能を容易にするこの系統グラフの抽象化が導入されています。
MGit は、系統グラフのストレージ フットプリントを最大 7 分の 1 に削減し、上流モデルの更新に応じて下流モデルを自動的に更新できます。
要約(オリジナル)
Models derived from other models are extremely common in machine learning (ML) today. For example, transfer learning is used to create task-specific models from ‘pre-trained’ models through finetuning. This has led to an ecosystem where models are related to each other, sharing structure and often even parameter values. However, it is hard to manage these model derivatives: the storage overhead of storing all derived models quickly becomes onerous, prompting users to get rid of intermediate models that might be useful for further analysis. Additionally, undesired behaviors in models are hard to track down (e.g., is a bug inherited from an upstream model?). In this paper, we propose a model versioning and management system called MGit that makes it easier to store, test, update, and collaborate on model derivatives. MGit introduces a lineage graph that records provenance and versioning information between models, optimizations to efficiently store model parameters, as well as abstractions over this lineage graph that facilitate relevant testing, updating and collaboration functionality. MGit is able to reduce the lineage graph’s storage footprint by up to 7x and automatically update downstream models in response to updates to upstream models.
arxiv情報
著者 | Wei Hao,Daniel Mendoza,Rafael da Silva,Deepak Narayanan,Amar Phanishaye |
発行日 | 2023-07-14 17:56:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google