HardML: A Benchmark For Evaluating Data Science And Machine Learning knowledge and reasoning in AI

要約

データサイエンスと機械学習の分野における知識と推論能力を評価するために設計されたベンチマークであるHardMLを提示します。
HARDMLは、6か月間にわたって手作りされた100の挑戦的な多様な質問の多様なセットで構成され、データサイエンスと機械学習の最も人気のある最新の分野をカバーしています。
これらの質問は、典型的な上級機械学習エンジニアが正しく答えることでさえ挑戦的です。
データ汚染のリスクを最小限に抑えるために、HardMLは著者によって考案された主に元のコンテンツを使用します。
現在の最先端のAIモデルは、このベンチマークで30%のエラー率を達成します。これは、同等のよく知られているMMLU MLで達成されたベンチマークの約3倍です。
HardMLは範囲が制限されており、主にその多肢選択の性質のためにフロンティアをプッシュすることを目指していませんが、トップAIの進行を定量化および追跡するための厳格で最新のテストベッドとして機能します。
LLM評価の多くのベンチマークと実験は、数学、物理学、化学などの他のSTEM分野に存在しますが、データサイエンスと機械学習のサブフィールドはかなり目立たないままです。

要約(オリジナル)

We present HardML, a benchmark designed to evaluate the knowledge and reasoning abilities in the fields of data science and machine learning. HardML comprises a diverse set of 100 challenging multiple-choice questions, handcrafted over a period of 6 months, covering the most popular and modern branches of data science and machine learning. These questions are challenging even for a typical Senior Machine Learning Engineer to answer correctly. To minimize the risk of data contamination, HardML uses mostly original content devised by the author. Current state of the art AI models achieve a 30% error rate on this benchmark, which is about 3 times larger than the one achieved on the equivalent, well known MMLU ML. While HardML is limited in scope and not aiming to push the frontier, primarily due to its multiple choice nature, it serves as a rigorous and modern testbed to quantify and track the progress of top AI. While plenty benchmarks and experimentation in LLM evaluation exist in other STEM fields like mathematics, physics and chemistry, the subfields of data science and machine learning remain fairly underexplored.

arxiv情報

著者 Tidor-Vlad Pricope
発行日 2025-05-06 15:53:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク