Croissant: A Metadata Format for ML-Ready Datasets

要約

データは機械学習 (ML) にとって重要なリソースですが、データの操作は依然として重要な摩擦点です。
このペーパーでは、ML ツール、フレームワーク、プラットフォーム間で共有表現を作成するデータセットのメタデータ形式である Croissant について紹介します。
Croissant は、データセットの発見性、移植性、相互運用性を高め、ML データ管理における重大な課題に対処します。
Croissant は、数十万のデータセットにまたがるいくつかの人気のあるデータセット リポジトリですでにサポートされており、データの保存場所に関係なく、最も一般的に使用される ML フレームワークに簡単に読み込むことができます。
人間の評価者による最初の評価では、Croissant のメタデータが読みやすく、理解しやすく、完全でありながら簡潔であることがわかりました。

要約(オリジナル)

Data is a critical resource for machine learning (ML), yet working with data remains a key friction point. This paper introduces Croissant, a metadata format for datasets that creates a shared representation across ML tools, frameworks, and platforms. Croissant makes datasets more discoverable, portable, and interoperable, thereby addressing significant challenges in ML data management. Croissant is already supported by several popular dataset repositories, spanning hundreds of thousands of datasets, enabling easy loading into the most commonly-used ML frameworks, regardless of where the data is stored. Our initial evaluation by human raters shows that Croissant metadata is readable, understandable, complete, yet concise.

arxiv情報

著者 Mubashara Akhtar,Omar Benjelloun,Costanza Conforti,Luca Foschini,Joan Giner-Miguelez,Pieter Gijsbers,Sujata Goswami,Nitisha Jain,Michalis Karamousadakis,Michael Kuchnik,Satyapriya Krishna,Sylvain Lesage,Quentin Lhoest,Pierre Marcenac,Manil Maskey,Peter Mattson,Luis Oala,Hamidah Oderinwale,Pierre Ruyssen,Tim Santos,Rajat Shinde,Elena Simperl,Arjun Suresh,Goeffry Thomas,Slava Tykhonov,Joaquin Vanschoren,Susheel Varma,Jos van der Velde,Steffen Vogler,Carole-Jean Wu,Luyao Zhang
発行日 2024-12-09 18:37:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, cs.IR, cs.LG パーマリンク