要約
正確な AI 駆動モデルを設定するには、ビッグデータの量と質が重要であるのは当然です。
それにもかかわらず、データベースの固有の生成には依然として重大な障害があり、それらはしばしば過小評価され、文献で十分に議論されていないと考えています。
私たちの見解では、このような問題は、高品質で十分に大規模で信頼性の高いデータ ソースが利用可能な場合でも、AI ベースの検出プロセスを著しく妨げる可能性があります。
ここでは、超伝導材料と熱電材料を 2 つの代表的なケーススタディとして考慮し、本質的に偏ったサンプル選択、潜在的な隠れ変数、異種データの古さという 3 つの側面を具体的に説明します。
重要なのは、私たちの知る限りでは、本質的なデータバイアスの存在を検出して定量化できる最初の戦略を提案し、テストしていることです。
要約(オリジナル)
It stands to reason that the amount and the quality of big data is of key importance for setting up accurate AI-driven models. Nonetheless, we believe there are still critical roadblocks in the inherent generation of databases, that are often underestimated and poorly discussed in the literature. In our view, such issues can seriously hinder the AI-based discovery process, even when high quality, sufficiently large and highly reputable data sources are available. Here, considering superconducting and thermoelectric materials as two representative case studies, we specifically discuss three aspects, namely intrinsically biased sample selection, possible hidden variables, disparate data age. Importantly, to our knowledge, we suggest and test a first strategy capable of detecting and quantifying the presence of the intrinsic data bias.
arxiv情報
著者 | Giovanni Trezza,Eliodoro Chiavazzo |
発行日 | 2023-11-16 13:38:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google