要約
大規模な言語モデル(LLMS)の最近の進歩は、ドメイン全体で顕著な進歩をもたらしましたが、人文科学、特に歴史におけるそれらの能力は未習性のままです。
歴史的推論は、マルチモーダルソース解釈、時間的推論、および言語分析を含むAIに独自の課題をもたらします。
汎用エージェントは多くの既存のベンチマークでうまく機能しますが、歴史的資料や質問に取り組むために必要なドメイン固有の専門知識がありません。
このギャップに対処するために、AIの歴史的推論の能力を評価するために設計され、40人以上の専門家貢献者によって作成された414の高品質の質問の新しいベンチマークであるHistbenchを紹介します。
このタスクは、主要な情報源に基づいた事実上の検索から、原稿や画像の解釈分析、考古学、言語学、または文化史を含む学際的な課題に至るまで、幅広い歴史的問題に及びます。
さらに、ベンチマークデータセットは29の古代および現代の言語にまたがり、幅広い歴史的期間と世界地域をカバーしています。
histbenchでLLMSおよび他のエージェントのパフォーマンスが低いことを発見した場合、歴史上、OCR、翻訳、アーカイブ検索、画像理解のための慎重に設計されたツールを装備した歴史固有のエージェントであるHistagentをさらに提示します。
Histbenchでは、GPT-4oに基づくHistagentは、27.54%パス@1および36.47%パス@2の精度を達成し、LLMをオンライン検索とGPT-4o(18.60%)、Deepseek-R1(14.49%)、Open empro Research-smolagents(20.29%Pass@2.12を含むジェネラリストエージェントを大幅に上回ります。
これらの結果は、既存のLLMとジェネラリストのエージェントの制限を強調し、歴史的推論に対するヒスタゲントの利点を示しています。
要約(オリジナル)
Recent advances in large language models (LLMs) have led to remarkable progress across domains, yet their capabilities in the humanities, particularly history, remain underexplored. Historical reasoning poses unique challenges for AI, involving multimodal source interpretation, temporal inference, and cross-linguistic analysis. While general-purpose agents perform well on many existing benchmarks, they lack the domain-specific expertise required to engage with historical materials and questions. To address this gap, we introduce HistBench, a new benchmark of 414 high-quality questions designed to evaluate AI’s capacity for historical reasoning and authored by more than 40 expert contributors. The tasks span a wide range of historical problems-from factual retrieval based on primary sources to interpretive analysis of manuscripts and images, to interdisciplinary challenges involving archaeology, linguistics, or cultural history. Furthermore, the benchmark dataset spans 29 ancient and modern languages and covers a wide range of historical periods and world regions. Finding the poor performance of LLMs and other agents on HistBench, we further present HistAgent, a history-specific agent equipped with carefully designed tools for OCR, translation, archival search, and image understanding in History. On HistBench, HistAgent based on GPT-4o achieves an accuracy of 27.54% pass@1 and 36.47% pass@2, significantly outperforming LLMs with online search and generalist agents, including GPT-4o (18.60%), DeepSeek-R1(14.49%) and Open Deep Research-smolagents(20.29% pass@1 and 25.12% pass@2). These results highlight the limitations of existing LLMs and generalist agents and demonstrate the advantages of HistAgent for historical reasoning.
arxiv情報
著者 | Jiahao Qiu,Fulian Xiao,Yimin Wang,Yuchen Mao,Yijia Chen,Xinzhe Juan,Siran Wang,Xuan Qi,Tongcheng Zhang,Zixin Yao,Jiacheng Guo,Yifu Lu,Charles Argon,Jundi Cui,Daixin Chen,Junran Zhou,Shuyao Zhou,Zhanpeng Zhou,Ling Yang,Shilong Liu,Hongru Wang,Kaixuan Huang,Xun Jiang,Yuming Cao,Yue Chen,Yunfei Chen,Zhengyi Chen,Ruowei Dai,Mengqiu Deng,Jiye Fu,Yunting Gu,Zijie Guan,Zirui Huang,Xiaoyan Ji,Yumeng Jiang,Delong Kong,Haolong Li,Jiaqi Li,Ruipeng Li,Tianze Li,Zhuoran Li,Haixia Lian,Mengyue Lin,Xudong Liu,Jiayi Lu,Jinghan Lu,Wanyu Luo,Ziyue Luo,Zihao Pu,Zhi Qiao,Ruihuan Ren,Liang Wan,Ruixiang Wang,Tianhui Wang,Yang Wang,Zeyu Wang,Zihua Wang,Yujia Wu,Zhaoyi Wu,Hao Xin,Weiao Xing,Ruojun Xiong,Weijie Xu,Yao Shu,Xiao Yao,Xiaorui Yang,Yuchen Yang,Nan Yi,Jiadong Yu,Yangyuxuan Yu,Huiting Zeng,Danni Zhang,Yunjie Zhang,Zhaoyu Zhang,Zhiheng Zhang,Xiaofeng Zheng,Peirong Zhou,Linyan Zhong,Xiaoyin Zong,Ying Zhao,Zhenxin Chen,Lin Ding,Xiaoyu Gao,Bingbing Gong,Yichao Li,Yang Liao,Guang Ma,Tianyuan Ma,Xinrui Sun,Tianyi Wang,Han Xia,Ruobing Xian,Gen Ye,Tengfei Yu,Wentao Zhang,Yuxi Wang,Xi Gao,Mengdi Wang |
発行日 | 2025-05-26 17:22:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google