Data Readiness for AI: A 360-Degree Survey

要約

人工知能 (AI) アプリケーションはデータに大きく依存します。
データの品質が低いと、不正確で非効率な AI モデルが生成され、誤った使用や安全でない使用につながる可能性があります。
データの準備状況の評価は、AI のデータ使用の品質と適切性を向上させるための重要なステップです。
研究開発努力はデータ品質の向上に費やされてきました。
ただし、AI トレーニングで使用するデータの準備状況を評価するための標準化された指標はまだ進化しています。
この調査では、AI トレーニングのためのデータの準備状況を検証するために使用される指標の包括的な調査を実行します。
この調査は、ACM デジタル ライブラリ、IEEE Xplore、Nature、Springer、Science Direct などの雑誌、および著名な AI 専門家によって公開されたオンライン記事によって出版された 140 以上の論文を調査しています。
この調査は、構造化データセットと非構造化データセットの AI (DRAI) 指標の分類法を提案することを目的としています。
この分類法が、AI のトレーニングと推論の品質、精度、公平性を強化するために使用される DRAI メトリクスの新しい標準につながると期待しています。

要約(オリジナル)

Artificial Intelligence (AI) applications critically depend on data. Poor quality data produces inaccurate and ineffective AI models that may lead to incorrect or unsafe use. Evaluation of data readiness is a crucial step in improving the quality and appropriateness of data usage for AI. R&D efforts have been spent on improving data quality. However, standardized metrics for evaluating data readiness for use in AI training are still evolving. In this study, we perform a comprehensive survey of metrics used to verify data readiness for AI training. This survey examines more than 140 papers published by ACM Digital Library, IEEE Xplore, journals such as Nature, Springer, and Science Direct, and online articles published by prominent AI experts. This survey aims to propose a taxonomy of data readiness for AI (DRAI) metrics for structured and unstructured datasets. We anticipate that this taxonomy will lead to new standards for DRAI metrics that will be used for enhancing the quality, accuracy, and fairness of AI training and inference.

arxiv情報

著者 Kaveen Hiniduma,Suren Byna,Jean Luca Bez
発行日 2024-11-27 18:44:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, I.2.0 パーマリンク