TurtleBench: Evaluating Top Language Models via Real-World Yes/No Puzzles

要約

大規模言語モデル (LLM) のアプリケーションが拡大するにつれて、信頼性の高い評価に対する需要が増加しています。
既存の LLM 評価ベンチマークは主に静的データセットに依存しているため、ユーザーとの動的な対話におけるモデルのパフォーマンスを評価することが困難になっています。
さらに、これらのベンチマークは特定の背景知識に依存することが多く、モデルの論理的推論能力の測定が複雑になります。
強力なモデルや手作業に基づく他の動的評価方法では、バイアスが生じ、高いコストと時間がかかり、大規模な適用が妨げられる可能性があります。
これらの問題に対処するために、私たちは TurtleBench を提案します。
TurtleBench は、当社が開発したオンラインのタートル スープ パズル プラットフォームから実際のユーザーの推測を収集します。
このアプローチにより、評価データセットの比較的動的な生成が可能になり、モデルの不正行為のリスクを軽減しながら、推論機能に対するユーザーの真のニーズに合わせて評価をより密接に調整することで、評価の信頼性が向上します。
TurtleBench には、1,532 のユーザーの推測と、注釈後の推測の正確さが含まれています。
このデータセットを使用して、現在利用可能な 9 つの最も先進的な LLM を徹底的に評価しました。
特に、OpenAI o1 シリーズ モデルは、これらの評価で優れた結果を達成できませんでした。
我々はさらなる研究のために、「o1 の潜在推論は自明な思考連鎖 (CoT) 技術を利用している」や「CoT の長さを増やすと推論上の利点がもたらされるだけでなく、ノイズコストも発生する」などのいくつかの仮説を提案します。

要約(オリジナル)

As the application of Large Language Models (LLMs) expands, the demand for reliable evaluations increases. Existing LLM evaluation benchmarks primarily rely on static datasets, making it challenging to assess model performance in dynamic interactions with users. Moreover, these benchmarks often depend on specific background knowledge, complicating the measurement of a model’s logical reasoning capabilities. Other dynamic evaluation methods based on strong models or manual efforts may introduce biases and incur high costs and time demands, hindering large-scale application. To address these issues, we propose TurtleBench. TurtleBench collects real user guesses from our online Turtle Soup Puzzle platform that we developed. This approach allows for the relatively dynamic generation of evaluation datasets, mitigating the risk of model cheating while aligning assessments more closely with genuine user needs for reasoning capabilities, thus enhancing the reliability of evaluations. TurtleBench includes 1,532 user guesses along with the correctness of guesses after annotation. Using this dataset, we thoroughly evaluated nine of the most advanced LLMs available today. Notably, the OpenAI o1 series models did not achieve leading results in these evaluations. We propose several hypotheses for further research, such as ‘the latent reasoning of o1 utilizes trivial Chain-of-Thought (CoT) techniques’ and ‘increasing CoT length not only provides reasoning benefits but also incurs noise costs.’

arxiv情報

著者 Qingchen Yu,Shichao Song,Ke Fang,Yunfeng Shi,Zifan Zheng,Hanyu Wang,Simin Niu,Zhiyu Li
発行日 2024-10-07 17:58:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク