ZnTrack — Data as Code

要約

過去 10 年間に計算技術は飛躍的に進歩しましたが、その勢いがすぐに鈍化する兆候はありません。
機械学習、大規模なコンピューティング リソース、業界の注目の高まりにより、データ管理、シミュレーション、モデル生成のためのコンピューター駆動のソリューションへの投資が増加しています。
しかし、このコンピューティングの増加に伴い、データはさらに大幅に拡大し、それに伴いデータの保存、共有、追跡が複雑化しています。
この作業では、Python ベースのデータ バージョニング ツールである ZnTrack を紹介します。
ZnTrack は確立されたバージョン管理システムに基づいて構築されており、実験におけるパラメータの追跡、ワークフローの設計、データの保存と共有のためのユーザーフレンドリーで使いやすいインターフェイスを提供します。
大規模なデータセットを単純な Python スクリプトに削減するこの機能から、Data as Code という概念が生まれます。これは、ここで紹介する研究の中核コンポーネントであり、計算時代が進化し続ける中で間違いなく重要な概念です。
ZnTrack は、オープンソースの FAIR データ互換 Python パッケージを提供し、ユーザーがこれらの将来の概念を活用できるようにします。

要約(オリジナル)

The past decade has seen tremendous breakthroughs in computation and there is no indication that this will slow any time soon. Machine learning, large-scale computing resources, and increased industry focus have resulted in rising investments in computer-driven solutions for data management, simulations, and model generation. However, with this growth in computation has come an even larger expansion of data and with it, complexity in data storage, sharing, and tracking. In this work, we introduce ZnTrack, a Python-driven data versioning tool. ZnTrack builds upon established version control systems to provide a user-friendly and easy-to-use interface for tracking parameters in experiments, designing workflows, and storing and sharing data. From this ability to reduce large datasets to a simple Python script emerges the concept of Data as Code, a core component of the work presented here and an undoubtedly important concept as the age of computation continues to evolve. ZnTrack offers an open-source, FAIR data compatible Python package to enable users to harness these concepts of the future.

arxiv情報

著者 Fabian Zills,Moritz Schäfer,Samuel Tovey,Johannes Kästner,Christian Holm
発行日 2024-01-19 10:21:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SE パーマリンク