要約
AIシステムは、パッケージ配信ルーティング、乗組員のスケジューリング、工場生産計画、パワーグリッドバランスなどのドメインでハード最適化問題のためにアルゴリズムエンジニアリングでどの程度機能しますか?
スコアベースのアルゴリズムプログラミングコンテストでAIシステムを評価するための新しいベンチマークであるAle-Benchを紹介します。
Atcoder Heuristic Contestsからの実際のタスクを利用して、Ale-Benchは計算的に硬く、既知の正確な解決策を認めない最適化の問題を提示します。
短期間、パス/フェイルコーディングベンチマークとは異なり、エールベンチは長期にわたる視野にわたって反復的なソリューションの改良を奨励します。
当社のソフトウェアフレームワークは、テスト実行フィードバックと視覚化を活用するインタラクティブなエージェントアーキテクチャをサポートしています。
フロンティアLLMSの評価により、特定の問題で高性能を示しているが、問題と長老の問題解決能力の一貫性の観点から、顕著なギャップは人間と比較して残っていることが明らかになりました。
これは、このベンチマークが将来のAIの進歩を促進する必要性を強調しています。
要約(オリジナル)
How well do AI systems perform in algorithm engineering for hard optimization problems in domains such as package-delivery routing, crew scheduling, factory production planning, and power-grid balancing? We introduce ALE-Bench, a new benchmark for evaluating AI systems on score-based algorithmic programming contests. Drawing on real tasks from the AtCoder Heuristic Contests, ALE-Bench presents optimization problems that are computationally hard and admit no known exact solution. Unlike short-duration, pass/fail coding benchmarks, ALE-Bench encourages iterative solution refinement over long time horizons. Our software framework supports interactive agent architectures that leverage test-run feedback and visualizations. Our evaluation of frontier LLMs revealed that while they demonstrate high performance on specific problems, a notable gap remains compared to humans in terms of consistency across problems and long-horizon problem-solving capabilities. This highlights the need for this benchmark to foster future AI advancements.
arxiv情報
著者 | Yuki Imajuku,Kohki Horie,Yoichi Iwata,Kensho Aoki,Naohiro Takahashi,Takuya Akiba |
発行日 | 2025-06-10 17:59:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google