Data-centric Artificial Intelligence: A Survey

要約

タイトル:データ中心の人工知能に関する調査

要約:
– 人工知能(AI)はほとんどの領域において深い影響を与えている。
– その成功に不可欠なものの1つが、機械学習モデルを構築するための豊富で高品質なデータの存在である。
– 近年、データがAIにおいて非常に重要な役割を果たしており、「データ中心のAI」という新しい概念が生まれている。
– 現在は、モデル設計の進歩よりも、データの品質や量の向上に研究者や実践者が注意を向けている。
– この調査では、データ中心のAIの必要性について、それに関する三つの目標(トレーニングデータの開発、推論データの開発、データのメンテナンス)とその代表的な方法について総合的な視点を示している。
– また、自動化と協調の観点から既存の文献を整理し、課題について議論し、各タスクのベンチマークを表にまとめている。
– これは、データライフサイクルのさまざまな段階で行われるさまざまなタスクのスペクトルをグローバルに俯瞰する最初の包括的な調査だと考えられる。
– 読者がこの分野の全体像を効率的に理解し、AIシステムを構築するためにデータを体系的にエンジニアリングするための手法やさらなる研究アイデアを習得できるように、データ中心のAIリソースの伴うリストが定期的に更新される予定だ。

要約(オリジナル)

Artificial Intelligence (AI) is making a profound impact in almost every domain. A vital enabler of its great success is the availability of abundant and high-quality data for building machine learning models. Recently, the role of data in AI has been significantly magnified, giving rise to the emerging concept of data-centric AI. The attention of researchers and practitioners has gradually shifted from advancing model design to enhancing the quality and quantity of the data. In this survey, we discuss the necessity of data-centric AI, followed by a holistic view of three general data-centric goals (training data development, inference data development, and data maintenance) and the representative methods. We also organize the existing literature from automation and collaboration perspectives, discuss the challenges, and tabulate the benchmarks for various tasks. We believe this is the first comprehensive survey that provides a global view of a spectrum of tasks across various stages of the data lifecycle. We hope it can help the readers efficiently grasp a broad picture of this field, and equip them with the techniques and further research ideas to systematically engineer data for building AI systems. A companion list of data-centric AI resources will be regularly updated on https://github.com/daochenzha/data-centric-AI

arxiv情報

著者 Daochen Zha,Zaid Pervaiz Bhat,Kwei-Herng Lai,Fan Yang,Zhimeng Jiang,Shaochen Zhong,Xia Hu
発行日 2023-04-02 04:43:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.DB, cs.LG パーマリンク