How do Machine Learning Models Change?

要約

機械学習 (ML) モデルとそのオープンソース実装の普及により、人工知能の研究とアプリケーションは変化しました。
Hugging Face (HF) のようなプラットフォームにより、これらのモデルの開発、共有、展開が可能になり、進化するエコシステムが促進されます。
これまでの研究では、HF などのプラットフォームでホストされているモデルの側面が調査されてきましたが、これらのモデルがどのように変化するかについての包括的な長期的研究はまだ調査されていません。
この調査では、リポジトリ マイニングと長期的分析手法の両方を利用して、HF 上の 50,000 を超えるモデルからの 200,000 を超えるコミットと 1,200 のリリースを調査することで、このギャップに対処しています。
コミットを分類するための ML 変更分類法を複製および拡張し、ベイジアン ネットワークを利用してコミットおよびリリース アクティビティの時間の経過に伴うパターンを明らかにします。
私たちの調査結果は、コミット活動が CRISP-DM などの確立されたデータ サイエンス方法論と一致しており、反復的な改良と継続的改善を重視していることを示しています。
さらに、リリース パターンでは、特にドキュメントにおいて重要な更新が統合される傾向があり、詳細な変更とマイルストーン ベースのリリースが区別されます。
さらに、人気の高いプロジェクトはライフサイクルの早い段階でインフラストラクチャの強化を優先し、集中的にコラボレーションを実践しているプロジェクトでは文書化基準が向上しています。
これらおよびその他の洞察は、コミュニティ プラットフォームでのモデルの変更についての理解を深め、モデルのメンテナンスのベスト プラクティスに関する貴重なガイダンスを提供します。

要約(オリジナル)

The proliferation of Machine Learning (ML) models and their open-source implementations has transformed Artificial Intelligence research and applications. Platforms like Hugging Face (HF) enable the development, sharing, and deployment of these models, fostering an evolving ecosystem. While previous studies have examined aspects of models hosted on platforms like HF, a comprehensive longitudinal study of how these models change remains underexplored. This study addresses this gap by utilizing both repository mining and longitudinal analysis methods to examine over 200,000 commits and 1,200 releases from over 50,000 models on HF. We replicate and extend an ML change taxonomy for classifying commits and utilize Bayesian networks to uncover patterns in commit and release activities over time. Our findings indicate that commit activities align with established data science methodologies, such as CRISP-DM, emphasizing iterative refinement and continuous improvement. Additionally, release patterns tend to consolidate significant updates, particularly in documentation, distinguishing between granular changes and milestone-based releases. Furthermore, projects with higher popularity prioritize infrastructure enhancements early in their lifecycle, and those with intensive collaboration practices exhibit improved documentation standards. These and other insights enhance the understanding of model changes on community platforms and provide valuable guidance for best practices in model maintenance.

arxiv情報

著者 Joel Castaño,Rafael Cabañas,Antonio Salmerón,David Lo,Silverio Martínez-Fernández
発行日 2024-11-14 18:14:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE パーマリンク