要約
ベンチマークは、人工知能(AI)の進歩を測定および操作するために重要です。
ただし、最近の研究では、AIベンチマークの状態について懸念が生じ、ベンチマークの過剰適合、ベンチマークの飽和、ベンチマークデータセット作成の集中化の増加などの問題が報告されています。
AIベンチマークエコシステムの状態の監視を容易にするために、ベンチマークの作成と飽和のグローバルダイナミクスの凝縮されたマップを作成するための方法論を紹介します。
コンピュータービジョンと自然言語処理のドメイン全体をカバーする1688ベンチマークのデータをキュレートし、ベンチマークの大部分がすぐに飽和に近づく傾向にあり、多くのベンチマークが広範な使用率を見つけることができず、さまざまなAIのベンチマークパフォーマンスが向上することを示しています
タスクは予期しないバーストを起こしがちでした。
ベンチマークの人気に関連する属性を分析し、将来のベンチマークでは、汎用性、幅広さ、および実際の実用性を強調する必要があると結論付けています。
要約(オリジナル)
Benchmarks are crucial to measuring and steering progress in artificial intelligence (AI). However, recent studies raised concerns over the state of AI benchmarking, reporting issues such as benchmark overfitting, benchmark saturation and increasing centralization of benchmark dataset creation. To facilitate monitoring of the health of the AI benchmarking ecosystem, we introduce methodologies for creating condensed maps of the global dynamics of benchmark creation and saturation. We curated data for 1688 benchmarks covering the entire domains of computer vision and natural language processing, and show that a large fraction of benchmarks quickly trended towards near-saturation, that many benchmarks fail to find widespread utilization, and that benchmark performance gains for different AI tasks were prone to unforeseen bursts. We analyze attributes associated with benchmark popularity, and conclude that future benchmarks should emphasize versatility, breadth and real-world utility.
arxiv情報
著者 | Adriano Barbosa-Silva,Simon Ott,Kathrin Blagec,Jan Brauner,Matthias Samwald |
発行日 | 2022-06-30 14:34:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google