LatEval: An Interactive LLMs Evaluation Benchmark with Incomplete Information from Lateral Thinking Puzzles

要約

LLM は継続的な進化と改良により、優れた論理的推論や垂直的思考能力を備えています。
しかし、彼らは既成概念にとらわれずに考えることができるでしょうか?
彼らは高度な水平思考能力を持っていますか?
水平思考パズルのセットアップに続いて、対話型フレームワーク内でモデルの水平思考を評価する新しい評価ベンチマークである LatEval を提案します。
私たちのベンチマークでは、モデルによって提示される質問の質と、問題解決のための情報を統合するモデルの機能という 2 つの側面で LLM に挑戦します。
ほぼすべての LLM が、対話中に水平思考を採用することに苦労していることがわかりました。
例えば、最新モデルであるGPT-4でも、ある程度の優位性はあるものの、人間と比較すると依然として顕著な差が残っています。
この評価ベンチマークは、LLM に、効果的な AI アシスタントにとって不可欠な非常に困難で独特なタスクを提供します。

要約(オリジナル)

With the continuous evolution and refinement of LLMs, they are endowed with impressive logical reasoning or vertical thinking capabilities. But can they think out of the box? Do they possess proficient lateral thinking abilities? Following the setup of Lateral Thinking Puzzles, we propose a novel evaluation benchmark, LatEval, which assesses the model’s lateral thinking within an interactive framework. In our benchmark, we challenge LLMs with 2 aspects: the quality of questions posed by the model and the model’s capability to integrate information for problem-solving. We find that nearly all LLMs struggle with employing lateral thinking during interactions. For example, even the most advanced model, GPT-4, exhibits the advantage to some extent, yet still maintain a noticeable gap when compared to human. This evaluation benchmark provides LLMs with a highly challenging and distinctive task that is crucial to an effective AI assistant.

arxiv情報

著者 Shulin Huang,Shirong Ma,Yinghui Li,Mengzuo Huang,Wuhe Zou,Weidong Zhang,Hai-Tao Zheng
発行日 2023-09-21 17:14:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク