Competition-Level Problems are Effective LLM Evaluators

要約

大規模言語モデル (LLM) は優れた推論能力を実証していますが、これらの能力と潜在的なデータ汚染の問題については最近議論が続いています。
このペーパーは、特に Codeforces での最近の競争レベルのプログラミング問題を解決する際の LLM の推論能力を評価することを目的としています。この問題は専門家によって作成され、深い理解と堅牢な推論スキルが必要とされます。
まず、問題の解放時間、困難さ、発生したエラーの種類などのさまざまな側面を考慮して、このタスクに関する GPT-4 のゼロショット パフォーマンスの包括的な評価を提供します。
驚くべきことに、GPT-4 の認識されたパフォーマンスは、2021 年 9 月以降、すべての困難および問題の種類にわたって一貫して問題の崖のような低下を経験しています。これは、データ汚染の可能性と、目に見えない複雑な問題を解決するための既存の LLM の課題を示しています。
推論の問題。
さらに、微調整、思考連鎖の促進、問題の説明の簡略化などのさまざまなアプローチを検討しますが、残念ながら、いずれも課題を一貫して軽減することはできません。
私たちの仕事を通じて、私たちはLLMの真の推論能力を評価するためのこの優れたデータソースの重要性を強調し、将来的により強力な推論能力とより優れた一般化を備えたLLMの開発を促進します。

要約(オリジナル)

Large language models (LLMs) have demonstrated impressive reasoning capabilities, yet there is ongoing debate about these abilities and the potential data contamination problem recently. This paper aims to evaluate the reasoning capacities of LLMs, specifically in solving recent competition-level programming problems in Codeforces, which are expert-crafted and unique, requiring deep understanding and robust reasoning skills. We first provide a comprehensive evaluation of GPT-4’s peiceived zero-shot performance on this task, considering various aspects such as problems’ release time, difficulties, and types of errors encountered. Surprisingly, the peiceived performance of GPT-4 has experienced a cliff like decline in problems after September 2021 consistently across all the difficulties and types of problems, which shows the potential data contamination, as well as the challenges for any existing LLM to solve unseen complex reasoning problems. We further explore various approaches such as fine-tuning, Chain-of-Thought prompting and problem description simplification, unfortunately none of them is able to consistently mitigate the challenges. Through our work, we emphasis the importance of this excellent data source for assessing the genuine reasoning capabilities of LLMs, and foster the development of LLMs with stronger reasoning abilities and better generalization in the future.

arxiv情報

著者 Yiming Huang,Zhenghao Lin,Xiao Liu,Yeyun Gong,Shuai Lu,Fangyu Lei,Yaobo Liang,Yelong Shen,Chen Lin,Nan Duan,Weizhu Chen
発行日 2023-12-05 03:44:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク