Data-centric Artificial Intelligence: A Survey

要約

人工知能 (AI) は、ほぼすべての分野で大きな影響を与えています。
その大きな成功の重要な要因は、機械学習モデルを構築するための豊富で高品質なデータを利用できることです。
最近、AI におけるデータの役割が大幅に拡大され、データ中心の AI という新たな概念が生まれています。
研究者や実務家の関心は、モデル設計の進歩から、データの質と量の向上へと徐々に移行しています。
この調査では、データ中心の AI の必要性について説明した後、データ中心の 3 つの一般的な目標 (トレーニング データの開発、推論データの開発、およびデータの保守) と代表的な方法の全体像について説明します。
また、自動化とコラボレーションの観点から既存の文献を整理し、課題について議論し、さまざまなタスクのベンチマークを表にまとめます。
これは、データ ライフサイクルのさまざまな段階にわたる一連のタスクのグローバルなビューを提供する最初の包括的な調査であると考えています。
読者がこの分野の全体像を効率的に把握し、AI システムを構築するためのデータを体系的に設計するための技術とさらなる研究アイデアを身に付けるのに役立つことを願っています。
データ中心の AI リソースの関連リストは、https://github.com/daochenzha/data-centric-AI で定期的に更新されます。

要約(オリジナル)

Artificial Intelligence (AI) is making a profound impact in almost every domain. A vital enabler of its great success is the availability of abundant and high-quality data for building machine learning models. Recently, the role of data in AI has been significantly magnified, giving rise to the emerging concept of data-centric AI. The attention of researchers and practitioners has gradually shifted from advancing model design to enhancing the quality and quantity of the data. In this survey, we discuss the necessity of data-centric AI, followed by a holistic view of three general data-centric goals (training data development, inference data development, and data maintenance) and the representative methods. We also organize the existing literature from automation and collaboration perspectives, discuss the challenges, and tabulate the benchmarks for various tasks. We believe this is the first comprehensive survey that provides a global view of a spectrum of tasks across various stages of the data lifecycle. We hope it can help the readers efficiently grasp a broad picture of this field, and equip them with the techniques and further research ideas to systematically engineer data for building AI systems. A companion list of data-centric AI resources will be regularly updated on https://github.com/daochenzha/data-centric-AI

arxiv情報

著者 Daochen Zha,Zaid Pervaiz Bhat,Kwei-Herng Lai,Fan Yang,Zhimeng Jiang,Shaochen Zhong,Xia Hu
発行日 2023-03-17 17:44:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, cs.LG パーマリンク