AI Data Readiness Inspector (AIDRIN) for Quantitative Assessment of Data Readiness for AI

要約

「Garbage In Garbage Out」は、人工知能 (AI) を含むさまざまな分野のコンピューター科学者によって広く合意された言葉です。
データは AI の燃料であるため、低品質で偏ったデータに基づいてトレーニングされたモデルは多くの場合効果的ではありません。
AI を使用するコンピューター科学者は、AI 用のデータを準備するためにかなりの時間と労力を投資します。
ただし、AI 向けのデータの「準備状況」を評価するための標準的な方法やフレームワークはありません。
AI プロセスに対するデータの準備状況を定量的に評価するために、AI データの準備状況のパラメーターを定義し、AIDRIN (AI Data Readiness Inspector) を導入します。
AIDRIN は、データの準備状況を定量的および定性的に評価するのに役立つ、文献で入手可能な準備状況の幅広い側面をカバーするフレームワークです。
AIDRIN は、データ評価に完全性、外れ値、重複などの従来のデータ品質評価のメトリクスを使用します。
さらに、AIDRIN は、機能の重要性、機能の相関関係、クラスの不均衡、公平性、プライバシー、FAIR (検索可能性、アクセシビリティ、相互運用性、および再利用性) 原則の遵守など、AI のデータを評価するために固有の指標を使用します。
AIDRIN は、データ サイエンティストがデータの準備状況をさらに調査するのを支援する視覚化とレポートを提供します。
AIDRIN フレームワークは、機械学習パイプラインの効率を強化し、AI アプリケーションのデータの準備に関して情報に基づいた意思決定を行います。

要約(オリジナル)

‘Garbage In Garbage Out’ is a universally agreed quote by computer scientists from various domains, including Artificial Intelligence (AI). As data is the fuel for AI, models trained on low-quality, biased data are often ineffective. Computer scientists who use AI invest a considerable amount of time and effort in preparing the data for AI. However, there are no standard methods or frameworks for assessing the ‘readiness’ of data for AI. To provide a quantifiable assessment of the readiness of data for AI processes, we define parameters of AI data readiness and introduce AIDRIN (AI Data Readiness Inspector). AIDRIN is a framework covering a broad range of readiness dimensions available in the literature that aid in evaluating the readiness of data quantitatively and qualitatively. AIDRIN uses metrics in traditional data quality assessment such as completeness, outliers, and duplicates for data evaluation. Furthermore, AIDRIN uses metrics specific to assess data for AI, such as feature importance, feature correlations, class imbalance, fairness, privacy, and FAIR (Findability, Accessibility, Interoperability, and Reusability) principle compliance. AIDRIN provides visualizations and reports to assist data scientists in further investigating the readiness of data. The AIDRIN framework enhances the efficiency of the machine learning pipeline to make informed decisions on data readiness for AI applications.

arxiv情報

著者 Kaveen Hiniduma,Suren Byna,Jean Luca Bez,Ravi Madduri
発行日 2024-06-27 15:26:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク