AI Competitions and Benchmarks: Dataset Development

要約

機械学習は、大量のデータからパターンを予測、生成、または発見できるため、現在多くのアプリケーションで使用されています。
ただし、実際に使用するためにデータを収集して変換するプロセスは複雑です。
大量のデータが毎日生成される今日のデジタル時代でも、それがすぐに利用できることはまれです。
ほとんどの場合、細心の注意を払って手動でデータを準備する必要があります。
新しいモデルの開発を急ぐとさまざまな欠点が生じることが多く、現実世界のシナリオ(社会的差別、重大な失敗など)に導入する際に潜在的にリスクが生じ、AI ベースのプロジェクトの失敗やコストの大幅な上昇につながります。
この章では、機械学習用のデータセットの開発における、私たちの実際の経験によって強化された、確立された方法論ツールの包括的な概要を説明します。
最初に、データセット開発に関連するタスクを開発し、その効果的な管理 (要件、設計、実装、評価、配布、メンテナンスを含む) についての洞察を提供します。
次に、データ収集、変換、品質評価を含む実装プロセスについて詳しく説明します。
最後に、データセットの配布とメンテナンスに関する実際的な考慮事項について説明します。

要約(オリジナル)

Machine learning is now used in many applications thanks to its ability to predict, generate, or discover patterns from large quantities of data. However, the process of collecting and transforming data for practical use is intricate. Even in today’s digital era, where substantial data is generated daily, it is uncommon for it to be readily usable; most often, it necessitates meticulous manual data preparation. The haste in developing new models can frequently result in various shortcomings, potentially posing risks when deployed in real-world scenarios (eg social discrimination, critical failures), leading to the failure or substantial escalation of costs in AI-based projects. This chapter provides a comprehensive overview of established methodological tools, enriched by our practical experience, in the development of datasets for machine learning. Initially, we develop the tasks involved in dataset development and offer insights into their effective management (including requirements, design, implementation, evaluation, distribution, and maintenance). Then, we provide more details about the implementation process which includes data collection, transformation, and quality evaluation. Finally, we address practical considerations regarding dataset distribution and maintenance.

arxiv情報

著者 Romain Egele,Julio C. S. Jacques Junior,Jan N. van Rijn,Isabelle Guyon,Xavier Baró,Albert Clapés,Prasanna Balaprakash,Sergio Escalera,Thomas Moeslund,Jun Wan
発行日 2024-04-15 12:01:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク