HCAST: Human-Calibrated Autonomy Software Tasks

要約

非常に自律的なAIシステムの社会的影響を理解して予測するには、接地を備えたベンチマーク、つまりAIパフォーマンスを私たちが関心のある現実世界の効果に直接結び付けるメトリックが必要です。
189の機械学習エンジニアリング、サイバーセキュリティ、ソフトウェアエンジニアリング、および一般的な推論タスクのベンチマークであるHCAST(ヒューマンキャリブレーションソフトウェアタスク)を紹介します。
これらのドメインに熟練した人々から563のヒトベースライン(合計1500時間以上)を収集し、AIエージェントと同一の条件下で作業します。これにより、Hcastのタスクが1分から8時間以上の間に人間が服用すると推定できます。
人間にかかる時間タスクを測定すると、AI機能を評価するための直感的なメトリックが提供され、「エージェントが人間のX時間かかるタスクを完了することを信頼できますか?」
Frontier Foundationモデルに基づいて構築されたAIエージェントの成功率を評価します。現在のエージェントは、人間を1時間未満にするタスクで70〜80%の時間を成功させ、4時間以上かかるタスクでは20%未満であることがわかります。

要約(オリジナル)

To understand and predict the societal impacts of highly autonomous AI systems, we need benchmarks with grounding, i.e., metrics that directly connect AI performance to real-world effects we care about. We present HCAST (Human-Calibrated Autonomy Software Tasks), a benchmark of 189 machine learning engineering, cybersecurity, software engineering, and general reasoning tasks. We collect 563 human baselines (totaling over 1500 hours) from people skilled in these domains, working under identical conditions as AI agents, which lets us estimate that HCAST tasks take humans between one minute and 8+ hours. Measuring the time tasks take for humans provides an intuitive metric for evaluating AI capabilities, helping answer the question ‘can an agent be trusted to complete a task that would take a human X hours?’ We evaluate the success rates of AI agents built on frontier foundation models, and we find that current agents succeed 70-80% of the time on tasks that take humans less than one hour, and less than 20% of the time on tasks that take humans more than 4 hours.

arxiv情報

著者 David Rein,Joel Becker,Amy Deng,Seraphina Nix,Chris Canal,Daniel O’Connel,Pip Arnott,Ryan Bloom,Thomas Broadley,Katharyn Garcia,Brian Goodrich,Max Hasin,Sami Jawhar,Megan Kinniment,Thomas Kwa,Aron Lajko,Nate Rush,Lucas Jun Koba Sato,Sydney Von Arx,Ben West,Lawrence Chan,Elizabeth Barnes
発行日 2025-03-21 17:54:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, I.2.0 パーマリンク