DataCI: A Platform for Data-Centric AI on Streaming Data

要約

DataCIは、動的なストリーミングデータ環境におけるデータ中心AI向けに特別に設計された包括的なオープンソースプラットフォームである。DataCIは、1)シームレスなストリーミングデータセット管理、データ中心のパイプライン開発、ストリーミングシナリオでの評価のための豊富なAPIを備えたインフラストラクチャ、2)パイプラインの系譜を追跡するための入念に設計されたバージョン管理機能、3)より良いインタラクティブなユーザーエクスペリエンスのための直感的なグラフィカルインターフェース、を提供する。予備的な研究とデモンストレーションは、DataCIの使いやすさと有効性を証明しており、ストリーミングデータ文脈におけるデータ中心AIの実践に革命をもたらす可能性を強調している。

要約(オリジナル)

We introduce DataCI, a comprehensive open-source platform designed specifically for data-centric AI in dynamic streaming data settings. DataCI provides 1) an infrastructure with rich APIs for seamless streaming dataset management, data-centric pipeline development and evaluation on streaming scenarios, 2) an carefully designed versioning control function to track the pipeline lineage, and 3) an intuitive graphical interface for a better interactive user experience. Preliminary studies and demonstrations attest to the easy-to-use and effectiveness of DataCI, highlighting its potential to revolutionize the practice of data-centric AI in streaming data contexts.

arxiv情報

著者 Huaizheng Zhang,Yizheng Huang,Yuanming Li
発行日 2023-07-03 14:54:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.DC, cs.LG パーマリンク