要約
大規模な言語モデル(LLM)は推論とエージェントベースの問題解決において大きな進歩を実証していますが、現在の評価方法論は能力を適切に評価できません。既存のベンチマークは、飽和と記憶の傾向がある、または一貫性と厳格さを欠く主観的な比較に依存しています。
この作業では、明確に定義された目的と広大なソリューションスペースを特徴とする組み合わせ最適化問題のためにLLMによって生成されたヒューリスティックアルゴリズムを評価するために設計されたエージェントフレームワークであるHeurigymを紹介します。
Heurigymは、LLMSにヒューリスティックを提案し、コード実行を介して評価フィードバックを受け取り、ソリューションを繰り返し改善することができます。
コンピューターシステム、ロジスティクス、生物学などのドメイン全体の9つの問題に関する9つの最先端モデルを評価し、ツールの使用、計画、および適応的推論における持続的な制限を明らかにします。
パフォーマンスを定量化するために、ソリューションの合格率と品質の両方をキャプチャするメトリックであるQuality-Yield Index(QYI)を提案します。
GPT-O4-MINI-HIGHやGEMINI-2.5-PROのようなトップモデルでさえ、わずか0.6のQYIスコアを達成し、1の専門家のベースラインをはるかに下回っています。オープンソースベンチマークは、LLMの開発を科学的およびエンジニアリングドメインにおけるより効果的かつ現実的な問題解決に向けて導くことを目的としています。
要約(オリジナル)
While Large Language Models (LLMs) have demonstrated significant advancements in reasoning and agent-based problem-solving, current evaluation methodologies fail to adequately assess their capabilities: existing benchmarks either rely on closed-ended questions prone to saturation and memorization, or subjective comparisons that lack consistency and rigor. In this work, we introduce HeuriGym, an agentic framework designed for evaluating heuristic algorithms generated by LLMs for combinatorial optimization problems, characterized by clearly defined objectives and expansive solution spaces. HeuriGym empowers LLMs to propose heuristics, receive evaluative feedback via code execution, and iteratively refine their solutions. We evaluate nine state-of-the-art models on nine problems across domains such as computer systems, logistics, and biology, exposing persistent limitations in tool use, planning, and adaptive reasoning. To quantify performance, we propose the Quality-Yield Index (QYI), a metric that captures both solution pass rate and quality. Even top models like GPT-o4-mini-high and Gemini-2.5-Pro attain QYI scores of only 0.6, well below the expert baseline of 1. Our open-source benchmark aims to guide the development of LLMs toward more effective and realistic problem-solving in scientific and engineering domains.
arxiv情報
著者 | Hongzheng Chen,Yingheng Wang,Yaohui Cai,Hins Hu,Jiajie Li,Shirley Huang,Chenhui Deng,Rongjian Liang,Shufeng Kong,Haoxing Ren,Samitha Samaranayake,Carla P. Gomes,Zhiru Zhang |
発行日 | 2025-06-09 17:46:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google