要約
「ごみのゴミ」は、人工知能(AI)を含むさまざまなドメインのコンピューター科学者による普遍的に合意された引用です。
データはAIの燃料であるため、低品質の偏ったデータでトレーニングされたモデルはしばしば効果がありません。
AIを使用するコンピューター科学者は、AIのデータを準備するためにかなりの時間と労力を費やします。
ただし、AIのデータの「準備」を評価するための標準的な方法やフレームワークはありません。
AIプロセスのデータの準備の定量化可能な評価を提供するために、AIデータの準備のパラメーターを定義し、AIDRIN(AI Data Readiness Inspector)を紹介します。
Aidrinは、定量的および定性的にデータの準備を評価するのに役立つ文献で利用可能な幅広い準備の次元をカバーするフレームワークです。
Aidrinは、データ評価のために完全性、外れ値、複製などの従来のデータ品質評価でメトリックを使用しています。
さらに、AIDRINは、機能の重要性、機能の相関、クラスの不均衡、プライバシー、公正(ファインド可能性、アクセシビリティ、相互運用性、再利用可能性)の原則コンプライアンスなど、AIのデータを評価するために固有のメトリックを使用しています。
Aidrinは、データの準備をさらに調査するのを支援する視覚化とレポートを提供します。
Aidrinフレームワークは、機械学習パイプラインの効率を高め、AIアプリケーションのデータ準備に関する情報に基づいた決定を下します。
要約(オリジナル)
‘Garbage In Garbage Out’ is a universally agreed quote by computer scientists from various domains, including Artificial Intelligence (AI). As data is the fuel for AI, models trained on low-quality, biased data are often ineffective. Computer scientists who use AI invest a considerable amount of time and effort in preparing the data for AI. However, there are no standard methods or frameworks for assessing the ‘readiness’ of data for AI. To provide a quantifiable assessment of the readiness of data for AI processes, we define parameters of AI data readiness and introduce AIDRIN (AI Data Readiness Inspector). AIDRIN is a framework covering a broad range of readiness dimensions available in the literature that aid in evaluating the readiness of data quantitatively and qualitatively. AIDRIN uses metrics in traditional data quality assessment such as completeness, outliers, and duplicates for data evaluation. Furthermore, AIDRIN uses metrics specific to assess data for AI, such as feature importance, feature correlations, class imbalance, fairness, privacy, and FAIR (Findability, Accessibility, Interoperability, and Reusability) principle compliance. AIDRIN provides visualizations and reports to assist data scientists in further investigating the readiness of data. The AIDRIN framework enhances the efficiency of the machine learning pipeline to make informed decisions on data readiness for AI applications.
arxiv情報
著者 | Kaveen Hiniduma,Suren Byna,Jean Luca Bez,Ravi Madduri |
発行日 | 2025-03-11 15:58:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google