要約
ベンチマークは、人工知能 (AI) の進歩を測定し、方向付けるために不可欠です。
しかし、最近の研究では、AI ベンチマークの状態に対する懸念が生じており、ベンチマークのオーバーフィッティング、ベンチマークの飽和、ベンチマーク データセット作成の集中化の増加などの問題が報告されています。
AI ベンチマーク エコシステムの健全性の監視を容易にするために、ベンチマークの作成と飽和のグローバル ダイナミクスの要約マップを作成するための方法論を導入します。
コンピューター ビジョンと自然言語処理の全領域をカバーする 3765 ベンチマークのデータを精選し、ベンチマークの大部分がすぐにほぼ飽和状態に向かう傾向にあること、多くのベンチマークが広範囲に使用されていないこと、さまざまな AI でベンチマークのパフォーマンスが向上していることを示しています。
タスクは予期せぬバーストを起こしがちでした。
ベンチマークの人気に関連する属性を分析し、将来のベンチマークは汎用性、幅広さ、実世界での有用性を強調する必要があると結論付けています。
要約(オリジナル)
Benchmarks are crucial to measuring and steering progress in artificial intelligence (AI). However, recent studies raised concerns over the state of AI benchmarking, reporting issues such as benchmark overfitting, benchmark saturation and increasing centralization of benchmark dataset creation. To facilitate monitoring of the health of the AI benchmarking ecosystem, we introduce methodologies for creating condensed maps of the global dynamics of benchmark creation and saturation. We curated data for 3765 benchmarks covering the entire domains of computer vision and natural language processing, and show that a large fraction of benchmarks quickly trended towards near-saturation, that many benchmarks fail to find widespread utilization, and that benchmark performance gains for different AI tasks were prone to unforeseen bursts. We analyze attributes associated with benchmark popularity, and conclude that future benchmarks should emphasize versatility, breadth and real-world utility.
arxiv情報
| 著者 | Simon Ott,Adriano Barbosa-Silva,Kathrin Blagec,Jan Brauner,Matthias Samwald |
| 発行日 | 2022-10-07 13:45:59+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google