Git-Theta: A Git Extension for Collaborative Development of Machine Learning Models

要約

現在、ほとんどの機械学習モデルは集中化されたチームによってトレーニングされており、更新されることはほとんどありません。
対照的に、オープンソース ソフトウェア開発には、バージョン管理システムを使用した分散コラボレーションによる共有成果物の反復開発が含まれます。
機械学習モデルの共同的かつ継続的な改善を可能にするために、機械学習モデルのバージョン管理システムである Git-Theta を導入します。
Git-Theta は、最も広く使用されているバージョン管理ソフトウェアである Git の拡張機能であり、コードやその他のアーティファクトとともにモデル パラメーターへの変更をきめ細かく追跡できます。
モデル チェックポイントをデータの塊として扱う既存のバージョン管理システムとは異なり、Git-Theta はチェックポイントの構造を利用して、通信効率の高い更新、モデルの自動マージ、およびモデルの 2 つのバージョン間の違いに関する有意義なレポートをサポートします。
さらに、Git-Theta には、ユーザーが新しい機能のサポートを簡単に追加できるプラグイン システムが含まれています。
このペーパーでは、Git-Theta の設計と機能を紹介し、事前トレーニングされたモデルが継続的に適応および変更される Git-Theta のユースケースの例を示します。
私たちは、共同モデル開発の新時代の幕開けを期待して、Git-Theta を一般公開します。

要約(オリジナル)

Currently, most machine learning models are trained by centralized teams and are rarely updated. In contrast, open-source software development involves the iterative development of a shared artifact through distributed collaboration using a version control system. In the interest of enabling collaborative and continual improvement of machine learning models, we introduce Git-Theta, a version control system for machine learning models. Git-Theta is an extension to Git, the most widely used version control software, that allows fine-grained tracking of changes to model parameters alongside code and other artifacts. Unlike existing version control systems that treat a model checkpoint as a blob of data, Git-Theta leverages the structure of checkpoints to support communication-efficient updates, automatic model merges, and meaningful reporting about the difference between two versions of a model. In addition, Git-Theta includes a plug-in system that enables users to easily add support for new functionality. In this paper, we introduce Git-Theta’s design and features and include an example use-case of Git-Theta where a pre-trained model is continually adapted and modified. We publicly release Git-Theta in hopes of kickstarting a new era of collaborative model development.

arxiv情報

著者 Nikhil Kandpal,Brian Lester,Mohammed Muqeeth,Anisha Mascarenhas,Monty Evans,Vishal Baskaran,Tenghao Huang,Haokun Liu,Colin Raffel
発行日 2023-06-07 15:37:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク