要約
外部ツールを使用して複雑な問題を解決する LLM ベースのエージェントは大幅な進歩を遂げていますが、その能力のベンチマークを行うのは困難であるため、その限界を明確に理解することが妨げられています。
この論文では、データ サイエンス タスクにコード インタプリタを利用する LLM の能力を包括的に評価するための、CIBench という対話型評価フレームワークを提案します。
当社の評価フレームワークには、評価データセットと 2 つの評価モードが含まれています。
評価データセットは、LLM と人間の協調的なアプローチを使用して構築され、連続したインタラクティブな IPython セッションを活用して本物のワークフローをシミュレートします。
2 つの評価モードは、人間の支援の有無にかかわらず、LLM の能力を評価します。
私たちは、CIBench 上の 24 個の LLM の能力を分析する広範な実験を実施し、コード インタプリタの利用における将来の LLM に貴重な洞察を提供します。
要約(オリジナル)
While LLM-Based agents, which use external tools to solve complex problems, have made significant progress, benchmarking their ability is challenging, thereby hindering a clear understanding of their limitations. In this paper, we propose an interactive evaluation framework, named CIBench, to comprehensively assess LLMs’ ability to utilize code interpreters for data science tasks. Our evaluation framework includes an evaluation dataset and two evaluation modes. The evaluation dataset is constructed using an LLM-human cooperative approach and simulates an authentic workflow by leveraging consecutive and interactive IPython sessions. The two evaluation modes assess LLMs’ ability with and without human assistance. We conduct extensive experiments to analyze the ability of 24 LLMs on CIBench and provide valuable insights for future LLMs in code interpreter utilization.
arxiv情報
著者 | Chuyu Zhang,Songyang Zhang,Yingfan Hu,Haowen Shen,Kuikun Liu,Zerun Ma,Fengzhe Zhou,Wenwei Zhang,Xuming He,Dahua Lin,Kai Chen |
発行日 | 2024-11-06 12:35:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google