要約
タスクオートメーションは、ソフトウェアエンジニアリング開発から汎用推論に至るまでのタスクがあるPythonコードを介して、最近の大規模な言語モデル(LLMS)の最近の進歩によって大幅に権限を与えられています。
現在のベンチマークは、LLMが人間の開発者などのプログラムを使用してタスクを解決できることを示していますが、評価の大部分は短くて自己完結型のアルゴリズムタスクまたはスタンドアロン関数呼び出しに限定されています。
挑戦的で実用的なタスクを解決するには、データ分析やWeb開発などの機能を効率的に実装するためのツールとして、多様な関数呼び出しを利用する機能が必要です。
さらに、複数のツールを使用してタスクを解決する必要があります。複雑な命令を正確に理解することにより、構成の推論が必要です。
これらの両方の特性を満たすことは、LLMSがプログラムを介して挑戦的で実用的なタスクをどの程度解決できるかを評価するためにLLMに大きな課題をもたらす可能性があります。BigCodeBenchを導入します。これは、LLMSが1,140の繊細なタスクの139ライブラリと7つのドメインからのツールとして複数の関数呼び出しを呼び出すように挑戦するベンチマークを導入します。
LLMを厳密に評価するために、各タスクには、平均支店カバレッジが99%の5.6テストケースが含まれます。
さらに、元のドキュメントを不可欠な情報でのみ短い指示に自動的に変換するBigCodebench、BigCodebench-Instructの自然言語指向のバリアントを提案します。
60 LLMSの広範な評価は、LLMSがまだ複雑な指示に従って機能コールを正確に使用することができないことを示しています。スコアは最大60%で、人間のパフォーマンスが97%よりも大幅に低くなっています。
結果は、この分野でのさらなる進歩の必要性を強調しています。
要約(オリジナル)
Task automation has been greatly empowered by the recent advances in Large Language Models (LLMs) via Python code, where the tasks ranging from software engineering development to general-purpose reasoning. While current benchmarks have shown that LLMs can solve tasks using programs like human developers, the majority of their evaluations are limited to short and self-contained algorithmic tasks or standalone function calls. Solving challenging and practical tasks requires the capability of utilizing diverse function calls as tools to efficiently implement functionalities like data analysis and web development. In addition, using multiple tools to solve a task needs compositional reasoning by accurately understanding complex instructions. Fulfilling both of these characteristics can pose a great challenge for LLMs.To assess how well LLMs can solve challenging and practical tasks via programs, we introduce BigCodeBench, a benchmark that challenges LLMs to invoke multiple function calls as tools from 139 libraries and 7 domains for 1,140 fine-grained tasks. To evaluate LLMs rigorously, each task encompasses 5.6 test cases with an average branch coverage of 99%. In addition, we propose a natural-language-oriented variant of BigCodeBench, BigCodeBench-Instruct, that automatically transforms the original docstrings into short instructions only with essential information. Our extensive evaluation of 60 LLMs shows that LLMs are not yet capable of following complex instructions to use function calls precisely, with scores up to 60%, significantly lower than the human performance of 97%. The results underscore the need for further advancements in this area.
arxiv情報
著者 | Terry Yue Zhuo,Minh Chien Vu,Jenny Chim,Han Hu,Wenhao Yu,Ratnadira Widyasari,Imam Nur Bani Yusuf,Haolan Zhan,Junda He,Indraneil Paul,Simon Brunner,Chen Gong,Thong Hoang,Armel Randy Zebaze,Xiaoheng Hong,Wen-Ding Li,Jean Kaddour,Ming Xu,Zhihan Zhang,Prateek Yadav,Naman Jain,Alex Gu,Zhoujun Cheng,Jiawei Liu,Qian Liu,Zijian Wang,Binyuan Hui,Niklas Muennighoff,David Lo,Daniel Fried,Xiaoning Du,Harm de Vries,Leandro Von Werra |
発行日 | 2025-04-01 08:36:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google